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“本 书 既 含 理 论 又 有 实践 应 用 ， 并 且 关 注 实践 是 本 书 的 一 大 特色 。 对 于 从 事 数 据 挖 气 和 机 器 学 习 方 面 工 

作 的 每 位 读者 ， 我 强烈 推荐 本 书 ! C 
— Dorian Pyle 
Data Preparation for Data Mining ) fil ( Business Modeling for Data Mining ) 的 作者 


“本 书 在 数据 挖 气 技 术 领 域 备 受 推 党 ,是 数据 挖 气 分 析 师 的 必 读 之 物 ! " 
—— Herb Edelstein 
Two Crows eee 司 阁 席 数据 挖掘 咨询 顾问 


S 


“这 是 我 最 喜爱 的 数据 挖掘 书籍 之 一 ， 书 中 和 不仅 循序 折 进 地 介绍 了 各 种 算法 ， 还 辅 以 丰富 实例 ， 详 细 阅 
述 了 ae PIR MIE AMET PRG TEAM A AR ER AA TH z sie ele a 而 且 还 会 帮助 你 了 解 各 


—— Tom Breur 

XLNT Consulting vi] r5 V 1) fh] 

"dde d iM E 数据 讲 行 PAT 和 理 角 fe 本 书 以 及 相关 & 的 Weka 工 具 包 el 是 一 个 绝 住 的 起 步 本 书 以 非常 容易 

理解 的 方式 展示 了 这 门 新 的 : Pie 既是 用 来 训练 新 一 代 实 际 工作 者 和 研究 者 的 教科 书 ， 同 时 又 能 让 像 我 这 样 

的 专业 人 员 受 益 。，Witten、Frank 和 Hall 热 衷 于 简单 而 优美 美的 解决 方案 。 他们 对 每 个 主题 都 采用 这 样 的 旁 法 : 用 

具体 的 实例 来 讲解 所 有 的 概念 ， 促 使 读者 首先 考虑 简单 的 技术 ， 当 简单 的 技术 不 足以 解决 问题 时 ,就 提升 到 
更 为 复杂 的 高 级 技术 

— Jim Gray (图 灵 交 获得 者) 

本 书 是 机 器 学 习 和 数据 挖掘 领域 的 经 典 畅 销 教材 ， 被 众多 国外 名 校 选用 。 书 中 不 仅 详 细 介 绍 机 器 学 习 的 理论 基 

础 ， 还 对 实际 工作 中 应 用 的 相关 工具 和 技术 提出 了 一 些 建议 。 本 版 对 上 一 版 内 容 进 行 了 T 了 全面 更 新 ， 以 反映 自 第 2 版 出 


版 以 来 数据 挖掘 的 技术 变革 和 新 方法 ， 包 括 数据 转换 、 集 成 学 习 、 大 规模 数据 集 。 多 实例 学 习 方面 的 新 材料 ， 以 及 
新 版 的 Weka 机 器 学 习 软 件 。 
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文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 
的 各 个 领域 取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 
间 名 家 辈出 、 独 领 风骚 。 在 商业 化 的 进程 中 ,美国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 
计算 机 学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著 
作 ， 不 仪 壁 划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， MUERAN, 又 自 有 学 者 个 性 ， 
其 价值 并 不 会 因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 
日 益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ;而 专业 教材 的 建设 在 教育 
战略 上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国家 在 其 计算 
机 科学 发 展 的 几 十 年 间 积淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国 
外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接 
轨 、 建 设 真正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 年 开始 ， 我 们 就 
将 工作 重点 放 在 了 六 选 、 移 译 国 外 优秀 教材 上。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson, 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良好 
的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, 
Brain W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey 
D. Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, 
Larry L. Peterson 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 
学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 从 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 圳 助 ， 国 内 的 专家 不 仅 提 供 了 
中 肯 的 选 题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 , “计算 机 科学 丛书 ”已 经 出 版 了 近 
两 百 个 品种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书 
籍 。 其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 
的 图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐 
渐 深 化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ,我 们 的 目标 是 尽 
善 尽 美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢 迎 老师 和 读者 
对 我 们 的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 : www. hzbook. com 

电子 邮件 : hzjsj@ hzbook. com 

联系 电话 : (010) 88379604 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 华章 科技 图 书 出 版 中 心 


邮政 编码 : 100037 
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信息 技术 正 以 惊人 的 速度 将 现实 世界 中 的 信息 转化 为 数据 ， 存 储 到 各 类 计算 机 系统 
中 ， 且 这 一 过 程 的 发 展 态势 可 能 超出 人 类 的 有 限 预 想 。 其 中 蕴含 着 的 ， 不 仅 是 自然 和 生 
fip, 还 有 人 类 的 行为 、 情 感 和 历史 。 同 我 们 生存 其 中 的 真实 自然 界 一 样 ， 新 兴 的 数据 中 潜 
藏 着 无 尽 的 奥秘 和 巨大 的 财富 ， 因 此 吸引 着 大 批 来 自 自然 科学 、 人 文科 学 以 及 商界 的 学 者 
和 技术 人 员 投身 其 中 。 正 确 地 解读 、 有 效 地 利用 这 些 数据 是 新 技术 革命 时 代 照 亮 人 类 前 行 
的 灯塔 。 

本 书 前 两 位 作者 是 大 名 易 瞻 的 Tan H. Witten 和 Eibe Frank， 他 们 共同 设计 了 影响 广远 
的 Weka AS. Weka 的 设计 与 提出 正如 谷歌 一 样 ， 它 通过 将 单纯 思想 迅速 实现 给 人 们 带 来 
前 所 未 有 的 不 同感 受 ， 完 美的 图 形 界面 、 感 性 直观 的 可 视 化 呈现 、 友 好 的 用 户 界面 消除 了 
初学 者 的 陌生 感 ， 为 同行 的 探索 时 常 予以 灵感 ， 又 集合 了 前 人 工作 的 大 成 。 而 且 ， 实验 系 
统 为 高 校 的 数据 挖掘 教学 提供 了 实验 环境 ， 施 惠 于 众人 。 

两 位 作者 研发 Weka 后 ， 将 他 们 开发 过 程 中 的 经 验 、 实 际 的 数据 挖掘 项 目 以 及 教学 过 
程 中 的 体会 融 为 一 体 ， 形 成 此 书 的 第 1 版 。Weka 此 后 经 历 多 次 版 本 更 新 。1999 年 Weka 
的 第 1 版 是 Witten 教授 和 Frank 博士 开发 的 。 后 来 随 着 数据 挖掘 技术 的 更 新 和 发 展 ， 经 过 
Weka 研究 小 组 的 辛勤 工作 ，Weka 软件 日 趋 完善 ，2005 年 本 书 推出 第 2 版 。 第 2 版 最 大 的 
变化 是 加 入 了 一 个 专门 介绍 Weka 系统 的 部 分 。 得 益 于 数据 挖掘 领域 的 飞速 发 展 和 用 户 日 
新 月 异 的 需求 引导 ，Weka 系统 在 过 去 的 十 年 里 焕然 一 新 ， 增 加 了 大 量 数据 挖掘 功能 ， 集 
成 了 非常 丰富 的 机 器 学 习 算 法 和 相关 技术 ， 于 是 催生 了 本 书 第 3 版 的 问世 。 第 3 版 在 前 面 
两 版 基础 上 增加 了 大 量 近年 来 最 新 涌现 的 数据 挖掘 算法 和 诸如 Web 数据 挖掘 等 新 领域 的 
介绍 ， 所 介绍 的 Weka 系统 较 第 2 版 增加 了 大 约 50% 的 算法 及 大 量 其 他 新 内 容 。 

本 书 的 翻译 是 在 极其 紧张 的 条 件 下 ， 经 过 所 有 团队 成 员 的 艰辛 拼搏 最 终 杀 青 的 ， 其 中 
凝聚 着 所 有 参与 者 的 真诚 与 责任 。 本 书 的 翻译 工作 由 李 川 副教授 统一 协调 负责 ， 参 与 的 人 
员 有 四 川 大 学 计算 机 科学 与 技术 专业 的 研究 生 吴 诗 极 、 张 永 辉 、 李 艳 梅 、 谢 世 娜 ， 他 们 在 
节假日 、 寒 夜里 加 班 工作 ， 对 译文 字 雕 句 琢 最 终 有 了 本 书 的 诞生 。 于 中 华 副教授 协助 进行 
了 本 书 的 最 终 统 稿 。 机 械 工业 出 版 社 的 王 春 华 、 盛 思源 老师 在 本 书 的 译 著 过 程 中 给 予 了 大 
力 的 支持 和 关心 帮助 。 没 有 这 些 幕 后 的 无 私 奉献 ， 不 可 能 有 本 书 的 面世 。 

尽管 译 者 心 正 意 诚 ， 然 则 受 限 于 自身 的 水 平 ， 本 书 一 定 存在 不 少 问题 ， 还 期 望 各 位 读 
者 给 予 批评 、 指 正 ， 各 位 的 反馈 将 使 本 书 更 趋 完善 。 最 后 ， 真 诚 期 望 本 书 对 大 家 有 益 ， 这 
是 对 我 们 翻译 工作 的 最 大 认可 ! 


译 者 
2014 年 1 月 9 日 夜 
四 川 大 学 DB&KE 实验 室 
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计算 和 通信 的 结合 建立 了 一 个 以 信息 为 基础 的 新 领域 。 但 绝 大 多 数 信息 尚 处 于 原始 状 
态 ， 即 以 数据 的 形式 存在 的 状态 。 假 如 我 们 将 数据 定义 为 被 记录 下 的 事实 ， 那么 信息 就 是 
在 这 些 记 录 事 实 的 数据 中 所 隐藏 的 一 系列 模式 或 预期 。 在 数据 库 中 殖 藏 了 大 量具 有 潜在 重 
要 性 的 信息 ， 这 些 信息 尚未 被 发 现 和 利用 ， 我 们 的 任务 就 是 将 这 些 数据 释放 出 来 。 

数据 挖掘 是 将 隐 含 的 、 尚 不 为 人 知 的 同时 又 是 潜在 有 用 的 信息 从 数据 中 提取 出 来 。 为 
此 我 们 编写 计算 机 程序 ， 自 动 在 数据 库 中 筛选 有 用 的 规律 或 模式 。 假 如 能 发 现 一 些 明 显 的 
模式 ， 则 可 以 将 其 归纳 出 来 以 对 未 来 的 数据 进行 准确 预测 。 当 然 ， 数 据 挖掘 结果 中 肯定 会 
出 现 一 些 问 题 ， 比 如 许多 模式 可 能 是 不 言 自 明 的 或 者 没有 实际 意义 的 。 另 一 些 还 有 可 能 是 
虚假 的 ， 或 者 由 于 某 些 具体 数据 集 的 偶然 巧合 而 产生 的 。 在 现实 世界 中 ， 数 据 是 不 完美 
的 : 有 些 被 人 为 算 改 ， 有 些 会 丢失 。 我 们 所 观察 到 的 所 有 东西 都 不 是 完全 精确 的 : 任何 规 
律 都 有 例外 ， 并 且 总 会 出 现 不 符合 任何 一 个 规律 的 实例 。 算 法 必须 具有 足够 的 健壮 性 以 应 
付 不 完美 的 数据 ， 并 能 提取 出 不 精确 但 有 用 的 规律 。 

机 器 学 习 为 数据 挖掘 提供 了 技术 基础 ， 可 用 其 将 信息 从 数据 库 的 原始 数据 中 提取 出 
来 ， 以 可 以 理解 的 形式 表达 ， 并 可 用 做 多 种 用 途 。 这 是 一 种 抽象 化 过 程 : 如 实地 全 盘 接 收 
现 有 数据 ， 然 后 在 其 基础 上 推导 出 所 有 隐藏 在 这 些 数据 中 的 结构 。 本 书 将 介绍 在 数据 挖掘 
实践 中 ， 用 以 发 现 和 描述 数据 中 的 结构 模式 而 采用 的 机 器 学 习 工 具 和 技术 。 

就 像 所 有 新 兴 技 术 都 会 受到 商界 的 强烈 关注 一 样 ， 关 于 数据 挖掘 应 用 的 报道 正 淹没 在 
那些 技术 类 或 大 众 类 出 版 社 的 大 肆 宣 扬中 。 和 夸张 的 报道 向 人 们 展示 了 通过 设立 学 习 算法 就 
能 从 浩瀚 的 数据 汪洋 中 发 现 那些 神秘 的 规律 。 但 机 器 学 习 中 绝 没有 什么 魔法 ， 没 有 什么 隐 
藏 的 力量 ， 也 没有 什么 巫 术 ， 有 的 只 是 一 些 能 将 有 用 信息 从 原始 数据 中 提取 出 来 的 简单 和 
实用 的 技术 。 本 书 将 介绍 这 些 技术 并 展示 它们 是 如 何 工 作 的 。 

我 们 将 机 器 学 习 理 解 为 从 数据 样本 中 获取 结构 描述 的 过 程 。 这 种 结构 描述 可 用 于 预 
测 、 解 释 和 理解 。 有 些 数据 挖掘 应 用 侧重 于 预测 : 从 数据 所 描述 的 过 去 预测 将 来 在 新 情况 
下 会 发 生 什 么 ， 通 常 是 猜测 新 的 样本 分 类 。 但 同样 令 我 们 感 兴趣 也 许 更 感 兴趣 的 是 , “学 
习 ” 的 结果 是 一 个 可 以 用 来 对 样本 进行 分 类 的 真实 结构 描述 。 这 种 结构 描述 不 仅 支 持 预 
测 ， 也 支持 解释 和 理解 。 根 据 我 们 的 经 验 ， 在 绝 大 多 数 数据 挖掘 实践 应 用 中 ， 用 户 最 感 兴 
趣 的 莫 过 于 掌握 样本 的 本 质 。 事 实 上 ， 这 是 机 器 学 习 优 于 传统 统计 模型 的 一 个 主要 优点 。 

本 书 向 我 们 诠释 多 种 机 器 学 习 方 法 。 其 中 一 部 分 出 于 方便 教学 的 目的 而 仅仅 罗列 一 些 
简单 方案 ， 以 便 清楚 解释 基本 思想 如 何 实 现 。 其 他 则 考虑 到 具体 实现 而 列举 很 多 应 用 于 实 
际 工作 中 的 真实 系统 。 很 多 都 是 近 几 年 发 展 起 来 的 新 方法 。 

我 们 创建 了 一 套 综合 的 软件 资源 以 说 明 本 书 中 的 思想 。 软 件 名 称 是 怀 卡 托 智能 分 析 环 
境 (Waikato Environment for Knowledge Analysis, Weka©), © AY Java 源 代码 可 以 在 
www. cs. waikato. ac. nz/ml/weka 中 得 到 。Weka 几乎 可 以 完善 地 实现 本 书 中 包含 的 所 有 技 
术 。 它 包括 机 器 学 习 方 法 的 说 明 性 代码 以 及 具体 实现 。 针 对 一 些 简单 技术 ， 它 提供 清楚 而 





OQ Weka (发 音 与 Mecca 类 似 ) 是 一 种 天 生 充 满 好 奇 心 的 不 会 飞 的 鸟 ， 这 种 鸟 仅 在 新 西 兰 的 岛屿 上 出 现 过 。 
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简洁 的 实现 ， 以 帮助 理解 机 器 学 习 中 的 相关 机 制 。Weka 还 提供 一 个 工作 平台 ， 完 整 、 实 
用 、 高 水 准 地 实现 了 很 多 流行 的 学 习 方案 ,这些 方案 能 够 运用 于 实际 的 数据 挖掘 项 目 或 学 
术 研 究 中 。 最 后 ， 本 书 还 包括 一 个 形 如 Java 类 库 的 框架 ， 这 个 框架 支持 散人 入 式 机 器 学 习 的 
应 用 ， 力 至 新 的 学 习 方 案 的 实现 。 

本 书 旨 在 介绍 用 于 数据 挖掘 领域 的 机 器 学 习 工 具 和 技术 。 读 完 本 书后 ， 你 将 对 这 些 技 
Weka 就 能 轻易 地 做 到 。 

提供 数据 挖掘 案例 研究 的 商业 书籍 中 往往 涉及 一 些 非 常 具有 实用 性 的 方法 ， 这 些 方法 
与 当前 机 器 学 习 教 材 中 出 现 的 更 理论 化 、 原 则 化 的 方法 之 间 存 在 巨大 鸿沟 ， 本 书 跨 越 了 这 
个 鸿沟 〈 关 于 本 书 的 一 些 简介 将 出 现在 后 面 第 1 章 的 末尾 ) 。 这 个 鸿沟 相当 大 ， 为 了 让 机 
器 学 习 技 术 应 用 富有 成 果 ， 需 要 理解 它们 是 如 何 工作 的 。 这 不 是 一 种 可 以 先 言 目 应 用 而 后 
期 待 好 结果 出 现 的 技术 。 不 同 的 问题 需要 不 同 的 技术 来 解决 。 但 是 如 何 根据 实际 问题 来 选 
择 合适 的 技术 并 不 是 那么 容易 的 事情 : 你 需要 知道 到 底 有 多 少 可 能 的 解决 方案 。 我 们 在 本 
书 中 所 论 及 的 技术 范围 相当 广泛 ， 这 是 因为 和 其 他 商业 书籍 不 同 ， 本 书 无 意 推销 某 种 特定 
的 商业 软件 或 方案 。 我 们 列举 大 量 实例 ， 但 为 展示 实例 所 采用 的 数据 集 却 小 得 足以 让 你 搞 
清楚 实例 的 整个 过 程 。 真 实 的 数据 集 太 大 ， 不 能 做 到 这 一 点 (而 真实 数据 集 的 获取 常 受 限 
于 商业 机 密 )。 我 们 所 选择 的 数据 集 并 不 是 用 来 说 明 那 些 拥有 大 型 数据 的 真实 问题 ， 而 是 
帮助 你 理解 不 同 技术 的 作用 ， 它 们 是 如 何 工 作 的 ， 以 及 它们 的 应 用 范围 是 什么 。 

本 书面 向 对 实际 数据 挖掘 技术 所 包含 的 原理 和 方法 感 兴趣 的 “技术 敏感 型 ”普通 读 
者 。 本 书 同样 适用 于 需 获 得 这 方面 新 技术 的 信息 专家 ， 以 及 所 有 希望 了 解 机 器 学 习 领 域 技 
术 细 节 的 人 。 本 书 也 是 为 有 着 一 般 兴 趣 的 信息 系统 实际 工作 者 所 写 的 ， 如 程序 员 、 咨 询 顾 
问 、 开 发 人 员 、 信 息 技 术 管 理 员 、 规 范 编写 者 、 专 利 审核 者 、 业 余 爱 好 者 ， 以 及 学 生 和 专 
家 教授 。 他 们 需要 拥有 这 样 一 本 书 : 拥有 大 量 实例 且 简单 易 读 ， 向 读者 阐释 与 机 器 学 习 相 
关 的 主要 技术 是 什么 、 做 什么 、 如 何 运用 它们 ， 以 及 它们 是 如 何 工作 的 。 本 书面 向 实际 ， 
告诉 读者 “如 何 去 做 ” ， 同 时 包括 许多 算法 、 代 码 以 及 具体 实例 的 实现 。 所 有 在 实际 工作 
中 进行 数据 挖掘 的 读者 将 直接 得 益 于 书 中 叙述 的 技术 。 本 书 旨 在 帮助 那些 希望 找到 掩藏 在 
天 花 乱 坠 广告 宣传 下 的 机 器 学 习 真 详 的 人 们 ， 以 及 帮助 那些 需要 实际 可 行 的 、 非 学 术 的 、 
值得 信赖 的 方案 的 人 们 。 我 们 避免 对 特定 的 理论 或 数学 知识 做 过 分 要 求 。 在 某 些 涉及 特定 
知识 的 地 方 ， 我 们 会 将 相关 文本 框 起 来 ， 这 些 内 容 是 可 选 部 分 ， 通常 是 为 照顾 对 理论 和 技 
术 感 兴趣 的 读者 ， 跳 过 这 部 分 内 容 不 会 对 整体 的 连贯 性 有 任何 影响 。 

本 书 分 为 几 个 层次 ,不管 你 是 想 走 马 观 花 地 浏览 基本 概念 ， 还 是 想 深入 详尽 地 掌握 技 
术 细 节 ， 阅 读本 书 都 可 以 满足 你 的 要 求 。 我 们 相信 机 器 学 习 的 使 用 者 需要 更 多 地 了 解 他 们 
运用 的 算法 如 何 工 作 。 我 们 常常 可 以 发 现 ， 优 秀 的 数据 模型 是 与 它 的 诠释 者 分 不 开 的 ， 诠 
释 者 需要 知道 模型 是 如 何 产生 的 ， 并 且 熟 悉 模 型 的 长 处 和 局 限 性 。 当 然 ， 并 不 要 求 所 有 的 
用 户 都 对 算法 的 细节 有 深入 理解 。 

根据 上 述 考量 ， 我 们 将 对 机 器 学 习 方 法 的 描述 分 为 几 个 彼此 承接 的 层次 。 本 书 共 分 为 
三 部 分 ， 第 一 部 分 是 关于 数据 挖掘 的 介绍 ， 读 者 将 在 这 一 部 分 学 习 数 据 挖掘 的 基本 思想 ， 
这 一 部 分 包括 书 中 的 前 五 章 。 第 1 章 通过 实例 说 明 机 器 学 习 是 什么 ， 以 及 能 用 在 什么 地 
方 ， 并 附带 提供 一 些 实际 应 用 。 第 2、3 章 给 出 不 同 的 输入 和 输出 ， 或 者 称 为 知识 表达 
(knowledge representation) 。 不 同 的 输出 要 求 不 同 的 算法 。 第 4 章 介 绍 机 器 学 习 的 基本 方 
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法 ， 这 些 方法 都 以 简化 形式 出 现 以 方便 读者 理解 。 其 中 的 相关 原理 通过 各 种 具体 算法 来 呈 
现 ， 这 些 算法 并 未 包含 复杂 细节 或 精妙 的 实现 方案 。 为 从 机 器 学 习 技术 的 应 用 升级 到 解决 
具体 的 数据 挖掘 问题 ， 必 须 对 机 器 学 习 的 效果 有 一 个 评估 。 第 5 章 可 以 单独 阅读 ， 它 帮助 
读者 评估 从 机 器 学 习 中 得 到 的 结果 ， 解 决 性 能 评估 中 出 现 的 某 些 复杂 问题 。 

第 二 部 分 介绍 数据 挖掘 的 一 些 高 级 技术 。 在 最 低 同 时 也 是 最 详细 的 层次 上 ， 第 6 章 详 
尽 揭示 实现 整 系列 机 器 学 习 算 法 的 步 又 ， 以 及 在 实际 应 用 中 为 更 好 工作 所 必需 的 、 较 为 复 
杂 的 部 分 〈 但 忽略 某 些 算法 对 复杂 数学 原理 的 要 求 ) 。 尽 管 有 些 读 者 也 许 想 忽 略 这 部 分 的 
具体 内 容 ， 但 只 有 到 这 一 层 ， 才 能 涉及 完整 、 可 运作 并 经 过 测试 的 机 器 学 习 的 Weka 实现 
方案 。 第 7 章 讨 论 一 些 涉 及 机 器 学 习 输 入 /输出 的 实际 问题 ， 例 如 ， 选 择 属 性 和 离散 化 属 
性 。 第 8 章 主 要 介绍 “集成 学 习 ” 技 术 ， 这 种 技术 综合 来 自 不 同学 习 技 术 的 输出 。 第 9 章 
展望 发 展 趋势 。 

本 书 阐述 了 在 实际 机 器 学 习 中 所 使 用 的 大 多 数 方法 ， 但 未 涉及 强化 学 习 (reinforce- 
ment leaning) ， 因 为 它 在 实际 数据 挖掘 中 极 少 应 用 ; 未 包含 遗传 算法 (genetic algorithm) , 
因为 它 仅仅 是 一 种 优化 技术 ; 同样 ， 也 没有 包含 关系 学 习 (relational learning) 和 归纳 逻 
辑 程序 设计 (inductive logic programming) ， 因 为 它们 很 少 被 主流 数据 挖掘 应 用 所 采纳 。 

第 三 部 分 介绍 Weka 数据 挖掘 平台 ， 它 提供 在 第 一 部 分 和 第 二 部 分 中 所 描述 的 几乎 所 
有 思想 的 实例 。 我 们 将 那些 概念 性 的 材料 从 如 何 使 用 Weka 的 实际 操作 材料 中 清楚 地 分 离 
出 来 。 在 第 一 、 二 部 分 每 一 章 的 结尾 会 给 出 指向 第 三 部 分 中 相应 Weka 算法 的 索引 。 读 者 
可 以 忽略 这 些 部 分 ， 或 者 如 果 你 急于 分 析 你 的 数据 并 且 不 愿意 纠结 于 说 明 算 法 的 技术 细 
节 ， 可 以 直接 跳 到 第 三 部 分 。 选 定 Java 来 实现 本 书 的 机 器 学 习 技术 ， 是 因为 作为 面向 对 象 
的 编程 语言 ， 它 允许 通过 统一 的 界面 进行 学 习 方案 和 方法 的 前 期 和 后 期 处 理 。 用 Java 取代 
C++, Smalltalk 或 者 其 他 面向 对 象 的 语言 ， 是 因为 用 Java 编写 的 程序 能 运行 在 大 部 分 计 
算 机 上 而 不 需要 重新 进行 编译 ， 不 需要 复杂 的 安装 过 程 ， 甚 至 不 需要 修改 源 代 码 。Java 程 
序 编译 成 字 节 码 后 ， 能 运行 于 任何 安装 了 适当 解释 器 的 计算 机 上 。 这 个 解释 器 称 为 Java 虚 
拟 机 。Java 虚拟 机 和 Java 编译 器 能 免费 用 于 所 有 重要 平台 上 。 

在 当前 所 有 的 可 能 选择 中 ， 能 得 到 广泛 支持 的 、 标 准 化 的 、 拥 有 详尽 文档 的 编程 语 
Ti. Java 似乎 是 最 佳 选 择 。 但 是 ， 由 于 在 执行 前 要 通过 虚拟 机 将 字 节 码 编译 为 机 器 代码 ， 
所 以 Java 程序 的 运行 速度 比 用 C 或 C++ 语言 编码 的 相应 程序 慢 。 这 个 缺陷 在 过 去 看 来 很 
严重 ， 但 在 过 去 二 十 年 间 ，Java 的 执行 效率 有 了 大 幅度 提升 。 依 我 们 的 经 验 ， 如 果 Java 虚 
拟 机 采用 即时 编译 器 ， 那 么 Java 运行 慢 这 个 因素 几乎 可 以 忽略 不 计 。 即 时 编译 器 将 整个 字 
节 码 块 翻译 成 机 器 代码 ， 而 不 是 一 个 接 一 个 地 翻译 字 节 码 ， 所 以 它 的 运行 速度 能 够 得 到 大 
幅度 的 提高 。 如 果 对 你 的 应 用 来 说 ， 这 个 速度 依然 很 慢 ， 还 可 以 选择 采用 某 些 编译 器 ， 跳 
过 字 节 码 这 一 步 ， 直 接 将 Java 程序 转换 成 机 器 代码 。 当 然 这 种 代码 不 能 跨 平 台 使 用 ， 这 样 
牺牲 了 Java 的 一 个 最 大 优势 。 


更 新 与 修改 


1999 年 ， 我 们 完成 本 书 的 第 1 版 ，2005 年 初 完成 第 2 版 ， 经 过 我 们 精心 修改 润色 的 
本 书 第 3 版 在 2011 年 同 读者 见面 。 这 个 世界 过 去 二 十 年 间 可 谓 是 沧海 桑田 ! 在 保留 前 版 
基本 核心 内 容 的 同时 ， 我 们 增加 了 很 多 新 内 容 ， 力 图 使 本 书 与 时 俱 进 。 本 书 第 3 版 较 前 
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版 接近 翻 倍 的 文字 量 可 以 反映 出 这 种 变化 。 当 然 ， 我 们 也 对 前 版 中 出 现 的 错误 进行 了 校 
正 ， 并 将 这 些 错误 集中 放 到 我 们 的 公开 勘误 文件 里 〈 读 者 可 以 通过 访问 本 书 主页 http: // 
www. cs. waikato. ac. nz/ml/weka/book. html 得 到 勘误 表 ) 。 

第 2 版 

本 书 第 2 版 中 最 主要 的 改变 是 增加 了 一 个 专门 的 部 分 来 介绍 Weka 机 器 学 习 工 作 平台 。 
这 样 做 可 以 将 书 中 的 主要 部 分 独立 于 工作 平台 呈现 给 读者 ， 我 们 将 在 第 3 版 中 沿用 这 个 方 
法 。 在 第 1 版 中 广 为 使 用 和 普及 的 Weka 工作 平台 在 第 2 版 中 已 经 改头换面 ， 增 加 了 新 的 
图 形 用 户 界面 或 者 说 是 三 个 独立 的 交互 界面 ， 这 使 读者 使 用 起 来 更 得 心 应 手 。 其 中 最 基本 
的 界面 是 Explorer 界面 ， 通 过 该 界面 ， 所 有 Weka 的 功能 都 可 以 经 由 菜单 选择 和 表单 填写 
的 方式 完成 ; 另 一 个 界面 称 为 Knowledge Flow 界面 ， 它 允许 对 流 数 据 处 理 过 程 进行 设置 ; 
第 三 个 界面 是 Experimenter 界面 ， 可 以 使 用 它 对 某 一 语料库 设置 自动 地 运行 选 定 的 机 器 学 
习 算法 ， 这 些 算法 都 带 有 不 同 的 参数 设置 ，Experimenter 界面 可 以 收集 性 能 统计 数据 ， 并 
在 所 得 实验 结果 的 基础 上 进行 有 意义 的 测试 。 这 些 界面 可 以 降低 数据 挖掘 者 的 门槛 。 第 2 
版 中 包括 一 套 如 何 使 用 它们 的 完整 介绍 。 

此 外 ， 第 2 版 还 包括 如 下 我 们 前 面 曾 大 致 提 及 的 新 内 容 。 我 们 对 介绍 规则 学 习 和 成 本 
敏感 评估 的 章节 进行 了 扩充 。 为 了 满足 普遍 需求 ， 我 们 增加 了 一 些 有 关 神 经 网 络 方面 的 内 
容 : 感知 器 及 相关 的 Winnow 算法 ， 以 及 多 层 感知 器 和 BP AEE, Logistic 回归 也 包含 在 内 。 
我 们 介绍 如 何 利 用 核 感 知 器 和 径 向 基 范 数 网 络 来 得 到 非 线 性 决策 边界 ， 还 介绍 用 于 回归 分 
析 的 支持 向 量 机 。 另 外 ， 应 读者 要 求 和 Weka 新 特性 的 加 入 ， 我 们 还 融入 了 有 关 贝 叶 斯 网 
络 的 新 章节 ， 其 中 介绍 如 何 基于 这 些 网 络 来 学 习 分 类 器 以 及 如 何 利 用 AD 树 来 高 效 地 应 用 
这 些 分 类 器 。 

在 过 去 的 五 年 (1999 一 2004) 中 ， 文 本 数据 挖掘 得 到 极 大 的 关注 ， 这 样 的 趋势 反映 在 以 
下 方面 : 字符 串 属性 在 Weka 中 的 出 现 、 用 于 文本 分 类 的 多 项 式 贝 叶 斯 以 及 文本 变换 。 我 们 
还 介绍 用 以 搜寻 实例 空间 的 高 效 数据 结构 : 为 高 效 寻 找 最 近邻 以 及 加 快 基于 距离 的 聚 类 而 采 
用 的 kD 树 和 球形 树 。 我 们 给 出 新 的 属性 选择 方案 (如 竞赛 搜索 和 支持 向 量 机 的 使 用 ) ， 以 及 
新 组 合 模型 技术 (如 累加 回归 、 累 加 Logistic EJI, Logistic 模型 树 以 及 选择 树 等 ) ， 还 讨论 
利用 无 标签 数据 提高 分 类 效果 的 最 新 进展 ， 包 括 协同 训练 (co-training) 和 co-EM 方法 。 

第 3 版 

第 3 版 在 第 2 版 基础 上 进行 彻底 革新 ， 大 量 新 方法 、 新 算法 的 引入 使 本 书 在 内 容 上 与 
时 俱 进 。 我 们 的 基本 理念 是 将 本 书 和 Weka 软件 平台 更 紧密 地 融合 。Weka 现在 的 版 本 已 经 
涵盖 本 书 前 两 部 分 绝 大 多 数 思想 的 实现 ， 同 时 你 也 能 通过 本 书 获取 关于 Weka 的 几乎 所 有 
信息 。 第 3 版 中 ， 我们 还 添加 了 大 量 文献 的 引用 : 引用 数量 达到 第 1 版 的 3 倍 多 。 

Weka 在 过 去 十 年 中 变 得 焕然 一 新 ， 也 变 得 易于 使 用 ， 并 且 在 数据 挖掘 功能 方面 有 很 
大 提高 。 它 已 经 集成 了 无 比 丰富 的 机 器 学 习 算 法 和 相关 技术 。Weka 的 进步 部 分 得 益 于 数 
据 挖掘 领域 的 近期 进展 ， 部 分 受 惠 于 用 户 引导 以 及 需求 驱动 ， 它 使 我 们 对 用 户 的 数据 控 掘 
需求 了 若 指 掌 ， 充 分 地 借鉴 发 展 中 的 经 验 又 能 很 好 地 选择 本 书 内 容 。 

如 前 文 所 述 ， 新 版 本 分 为 三 个 部 分 ， 其 中 章节 内 容 有 部 分 调整 。 更 重要 的 是 ， 增 加 了 
很 多 新 内 容 ， 以 下 刻 举 部 分 重要 的 改动 : 

第 1 章 包含 了 一 小 节 有 关 Web 挖掘 的 内 容 ， 并 且 从 道德 角度 探讨 据 称 是 匿名 数据 中 的 
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个 体 再 识别 问题 。 另 外 一 个 重要 的 补充 是 关于 多 实例 学 习 ( multi-instance learning) ， 这 方 
面 内 容 出 现在 两 个 新 增 小 节 中 : 4. 9 节 介绍 基本 方法 ，6. 10 节 介 绍 一 些 更 高 级 的 算法 。 第 
5 章 包含 有 关 交 互 式 成 本 - 收益 分 析 (interactive cost- benefit analysis) 的 新 内 容 。 第 6 章 
也 有 大 量 新 增 内 容 : 成 本 -复杂 度 前 枝 (cost-complexity pruning) 、 高 级 关联 规则 算法 (这 
种 算法 利用 扩展 前 缀 树 将 压缩 版 本 的 数据 集 存储 到 主 存 ) 、 核 岭 回归 (kernel ridge regres- 
sion) 、 随 机 梯度 下 降 (stochastic gradient descent) ， 以 及 层次 聚 类 方法 ( hierarchical cluste- 
ring method) 。 旧 版 中 关于 输入 /输出 的 章节 被 分 为 两 章 : 第 7 章 讲述 数据 转换 (主要 与 输 
和 人 有 关 )， 第 8 章 是 集成 学 习 (WH) 。 对 于 前 者 ， 我 们 增加 了 偏 最 小 二 乘 回 归 (partial 
least-squares regression) 、 鞭 水 池 抽 样 算法 (reservoir sampling) 、 一 分 类 学 习 ( one- class 
将 多 分 类 问题 分 解 为 集成 能 套 二 分 法 问题 ， 以 及 校准 类 概率 (calibrating 
class probabilities) 。 对 于 后 者 ， 我 们 增加 了 新 内 容 以 比较 随机 方法 与 装 袋 算法 和 旋转 森林 
算法 (rotation forest) 。 而 关于 数据 流 学 习 和 Web 挖掘 的 内 容 则 增添 到 第 二 部 分 的 最 后 
一 章 。 

第 三 部 分 主要 介绍 Weka 数据 挖掘 工作 平台 ， 也 加 入 大 量 新 内 容 。Weka 中 添 和 人 多 种 新 
的 过 滤器 、 机 器 学 习 算法 、 属 性 选择 算法 、 如 多 种 文件 格式 转换 器 一 样 的 组 件 以 及 参数 优 
化 算法 。 实 际 上 ， 第 3 版 中 介绍 的 新 版 本 Weka 比 第 2 版 中 的 Weka 增加 了 50% 的 算法 。 
所 有 这 些 变化 都 以 文档 形式 保存 。 为 了 满足 一 些 常 见 要 求 ， 我 们 给 出 关于 不 同 分 类 器 输出 
的 细节 并 解释 这 些 输出 所 揭示 的 意义 。 另 一 个 重要 的 变化 是 我 们 新 增 了 一 个 胃 新 的 章 
节 一 一 第 17 章 ， 在 这 一 章 中 给 出 一 些 关 于 Weka Explorer 界面 的 辅导 练习 (其 中 的 部 分 练 
习 颇 具 难 度 ) ， 这 些 练习 我 们 建议 Weka 新 用 户 都 能 尝试 着 做 一 遍 ， 这 有 助 于 你 了 解 Weka 
究竟 能 做 些 什 么 。 l 
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书写 致谢 部 分 常常 都 是 最 美好 的 时 候 ! 许多 人 给 了 我 们 帮助 ， 我 们 非常 享受 这 个 机 会 
来 表达 谢意 。 本 书 源 于 新 西 兰 怀 卡 托 大 学 计算 机 科学 系 的 机 器 学 习 研 究 项 目 ， 项 目 早 期 科 
研 人 员 给 了 我 们 极 大 的 鼓励 与 帮助 ， 他 们 是 : John Cleary, Sally Jo Cunningham, Matt Hum- 
phrey, Lyn Hunt, Bob McQueen, Lloyd Smith 以 及 Tony Smith。 特 别 感谢 项 目 经 理 Geoff 
Holmes 带 来 了 极其 丰富 的 灵感 与 鼓励 ， 同 时 还 要 特别 感谢 Bernhard Pfahringer， 他 们 两 位 
在 Weka 软件 部 分 做 了 重要 的 工作 。 机 器 学 习 项 目 所 有 相关 的 科研 人 员 都 给 了 我 们 思考 上 
的 帮助 ， 这 里 特别 提 到 几 位 学 生 : Steve Garner, Stuart Inglis 以 及 Craig Nevill- Manning， 他 
们 帮助 我 们 一 起 度 过 了 希望 渺茫 、 万 事 艰难 的 项 目 启动 初期 。 

Weka 系统 证 明了 本 书 的 许多 想法 ，Weka 是 本 书 非常 重要 的 部 分 。 该 部 分 的 构思 由 作 
者 完成 ， 设 计 与 实现 主要 由 Eibe Frank、Mark Hall、Peter Reutemann 以 及 Len Trigg 完成 ， 
怀 卡 托 大 学 机 器 学 习 实 验 室 的 诸多 成 员 都 做 了 很 重要 的 初期 工作 。 相 对 于 本 书 的 第 1 版 ， 
Weka 团队 有 了 极 大 的 扩充 ， 做 出 贡献 的 成 员 如 此 之 多 因此 对 每 个 人 都 表达 充分 的 感谢 不 
太 实 际 。 这 里 感谢 Remco Bouckaert 提供 的 Bayes net 包 等 一 系列 贡献 ，Lin Dong 实现 的 多 
实例 学 习 方法 ，Dale Fletcher 在 有 关 数 据 库 方面 提供 的 帮助 ，James Foulds 的 多 实例 过 滤 ， 
Anna Huang 的 信息 瓶颈 聚 类 ，Martin Gütlein 的 特征 选择 Kathryn Hempstalk 的 一 分 类 分 类 
器 ，Ashraf Kibriya 和 Richard Kirkby 多 到 难以 列举 的 贡献 ，Niels Landwehr 的 Logistic 模型 
树 ，Chi- Chung Lau 的 所 有 知识 流 界面 图 标 ，Abdelaziz Mahoui 实现 的 K * ，Stenfan Mutter 
的 关联 规则 挖掘，Makcolm Ware 大 量 各 方面 的 贡献 ，Haijian Shi 实现 的 树 学 习 器 ，Marc 
Sumner 的 快速 Logistic 模型 树 ，Tony Voyle 的 最 小 中 值 二 乘 回归 ，Yong Wang 的 Pace 回归 
以 及 M5' 的 最 初 实现 ，Xin Xu 的 多 实例 学 习 包 JRip 以 及 Logistic 回归 等 诸多 贡献 。 对 所 有 
这 些 努力 工作 的 人 ， 我 们 在 此 一 并 表示 最 真诚 的 感谢 ， 同 时 也 感谢 怀 卡 托 大 学 之 外 的 相关 
人 员 对 Weka 部 分 所 做 的 贡献 。 

我 们 隐匿 在 南半球 一 个 偏远 〈 但 十 分 漂亮 ) 的 角落 ， 非 常 感激 那些 来 我 们 系 的 访问 学 
者 ， 他 们 带 给 我 们 非常 重要 的 反馈 ， 帮 助 我 们 拓展 思路 。 我 们 尤其 希望 提 到 Rob Holte, 
Carl Gutwin 以 及 Russell Beale， 他 们 三 位 的 访问 都 长 达 数 月 ; David Aha 虽然 仅 造 访 了 几 
天 ,但 同样 在 项 目 最 脆弱 的 初期 阶段 给 了 我 们 极 大 的 热情 与 鼓励 ; Kai Ming Ting 在 第 8 章 
所 述 的 许多 主题 上 与 我 们 有 长 达 两 年 的 合作 ， 他 带领 我 们 进入 机 器 学 习 的 主流 中 。 最 近 还 
有 许多 访问 学 者 ， 包 括 Arie BenDavid, Carla Brodley 以 及 Stefan Kramer。 特 别 感谢 Albert 
Bifet 对 第 3 版 草稿 给 了 我 们 详细 的 反馈 意见 ， 大 部 分 我 们 已 经 采纳 并 且 做 了 修改 。 

怀 卡 托 大 学 的 学 生 对 这 个 项 目的 开展 和 推进 起 到 了 非常 重要 的 作用 ， 他 们 当中 的 许多 
人 已 经 在 上 述 Weka 贡献 者 之 列 ， 实 际 上 他 们 在 其 他 部 分 同样 做 了 很 多 工作 。 早 期 Jamie 
Littin 研究 了 链 波 下 降 规 则 以 及 关联 学 习 ，Brent Martin 探索 了 基于 实例 的 学 习 方法 以 及 基 
FABRE, Murray Fife 刻苦 钻研 关联 学 习 ，Nadeeka Madapathage 调查 了 表示 机 器 
学 习 算法 的 函数 式 语 言 的 使 用 。 最 近 ，Kathryn Hempstalk 研究 了 一 分 类 学 习 方 法 ， 她 的 研 
究 反 映 在 7.5 节 中 ; 同样 ，Richard Kirkby 关于 数据 流 方面 的 研究 反映 在 9.3 节 中 。 第 17 
章 中 的 部 分 练习 是 Gabi Schmidberger, Richard Kirkby 以 及 Geoff Holmes 设计 的 。 其 他 研究 
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生 也 在 很 多 方面 影响 了 我 们 ， 尤 其 是 Gordon Paynter, YingYing Wen 以 及 Zane Bray 三 位 与 
我 们 一 起 研究 了 文本 挖掘 ， 还 有 Quan Sun, Xiaofeng Yu。 同 事 Steve Jones, Malika Mahoui 
一 起 为 本 项 目 及 其 他 机 器 学 习 项 目 做 了 深入 的 研究 贡献 。 我 们 也 从 许多 来 自 Freiburg 的 访 
问 学 生 身 上 学 到 了 很 多 ， 这 其 中 就 包括 Nils Weidmann, 

Ian Witten 希望 感谢 他 之 前 卡尔 加 里 大 学 的 学 生 承 担 的 重要 角色 ， 尤 其 是 Brent Kraw- 
chuk, Dave Maulsby, Thong Phan 以 及 Tanja Mitrovic， 这 些 学 生 帮 助 他 形成 机 器 学 习 方 面 
的 初期 想法 ， 同 时 还 有 卡尔 加 里 大 学 的 老师 Bruce MacDonald, Brain Gaines 和 David Hill 以 
及 坎特伯雷 大 学 的 老师 John Andreae。 

Eibe Frank 感谢 他 之 前 在 卡尔 斯 鲁 厄 大 学 的 主管 Klaus- Peter Huber 对 他 的 影响 ， 让 他 
对 所 学 机 器 着 迷 。 在 他 的 旅途 中 ， 与 加 拿 大 的 Peter Turney, Joel Martin, Berry de Bruijn 以 
及 德国 的 Luc de Raedt, Christoph Helma, Kristian Kersting, Stefan Kramer, Ulrich Riickert、 
Ashwin Srinivasn 的 交流 同样 让 他 获 益 良 多 。 

Mark Hall 感谢 现在 就 职 于 密苏里 州立 大 学 的 前 主管 Lloyd Smith 在 他 论文 偏离 了 原 有 
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人 工 受 精 的 过 程 是 从 妇女 的 卵巢 中 收集 卵子 ， 青 与 丈夫 或 捐赠 人 的 精液 结合 后 产生 上 胚 
胎 ， 然 后 从 中 选择 几 个 胚胎 移植 到 妇女 的 子宫 里 。 关 键 是 要 选 出 那些 存活 可 能 性 最 大 的 胚 
胎 。 选 择 根据 60 个 左右 的 胚胎 特征 记录 做 出 ， 这 些 特征 包括 它们 的 形态 、 卵 母 细 胞 、 滤 
泡 和 精液 样品 。 特 征 属性 的 数量 非常 大 ， 胚 胎 学 家 很 难 同时 对 所 有 属性 进行 评估 ， 并 结合 
历史 数据 得 出 最 终结 论 : 这 个 胚胎 是 否 能 够 产生 一 个 活 的 婴儿 。 在 英格兰 的 一 个 研究 项 目 
中 ， 研 究 者 探索 运用 机 器 学 习 技术 ， 使 用 历史 记录 和 它们 的 输出 作为 训练 数据 。 

每 年 ， 新 西 兰 奶牛 场 主 都 要 面临 艰难 的 商业 决策 : 哪些 牛 应 该 留 在 牧场 ， 哪 些 牛 需要 
卖 到 屠宰 场 。 随 着 饲料 储备 的 减少 ， 每 年 牧场 在 接近 挤 奶 季节 末期 时 只 留 下 1/5 的 奶牛 。 
每 头 牛 的 生育 和 牛奶 产量 的 历史 数据 都 会 影响 这 个 决定 。 除 此 以 外 还 要 考虑 的 因素 有 : 年 
龄 (每 头 牛 都 将 在 8 岁 后 接近 生育 期 的 终结 ) 、 健 康 问题 、 难 产 的 历史 数据 、 不 良 的 性 情 
特征 (如 炮 踊 子 、 跳 栅栏 )、 在 下 一 个 季节 里 不 产 牛 犊 。 在 过 去 的 几 年 中 ， 几 百 万 头 牛 中 
的 每 一 头 牛 都 用 700 多 个 属性 记录 下 来 。 机 器 学 习 正 是 用 来 考察 成 功 的 农场 主 在 做 决定 的 
时 候 需要 考虑 哪些 因素 ， 不 是 为 了 使 决策 自动 化 ， 而 是 向 其 他 人 推广 这 些 农场 主 的 技术 和 
经 验 。 

机 器 学 习 是 从 数据 中 挖 气 知识。 它 是 一 个 正在 萌芽 的 新 技术 ,范围 涉及 生 与 死 、 从 欧 
洲 到 两 极 、 家 庭 和 事业 ， 正 逐渐 引起 人 们 的 重视 。 : 


1.1 数据 挖掘 和 机 器 学 习 


我 们 正在 被 数据 所 淹没 。 存 在 于 这 个 世界 和 我 们 生活 中 的 数据 总 量 似乎 在 不 断 地 增 
长 ， 而 且 没 有 停止 的 迹象 。 个 人 计算 机 的 普及 将 那些 以 前 会 丢弃 的 数据 保存 起 来 。 便 宜 的 
硬盘 和 网 络 硬盘 ， 使 得 很 容易 以 后 再 决定 用 这 些 数 据 做 什么 ， 因 为 我 们 可 以 买 更 多 的 硬盘 
来 保存 数据 。 无 处 不 在 的 电子 器 件 记 录 了 我 们 的 决策 ， 如 超市 里 的 商品 选择 、 个 人 的 理财 
习惯 ， 以 及 收入 和 消费 。 我 们 以 自己 的 方式 生活 在 这 个 世界 上 ， 而 每 一 个 行为 又 成 为 一 条 
数据 库 里 的 记录 保存 下 来 。 如 今 互联 网 用 信息 将 我 们 淹没 , 我 们 在 网 上 所 做 的 每 一 个 选择 
都 被 记录 下 来 。 所 有 的 这 些 信息 记录 了 个 人 的 选择 ， 而 在 商业 和 企业 领域 存在 着 数 不 清 的 
相似 案例 。 我 们 都 知道 我 们 对 数据 的 掌握 永远 无 法 赶 上 数据 升级 的 速度 。 而 且 在 数据 量 增 
加 的 同时 ， 无 情 地 伴随 着 人 们 对 它 理 解 的 降低 。 隐 藏 在 这 些 数 据 后 的 是 信息 ， 具 有 潜在 用 
处 的 信息 ， 而 这 些 信息 却 很 少 被 显现 出 来 或 者 被 开发 利用 。 

本 书 介绍 如 何在 数据 中 寻找 模式 。 这 并 不 稀奇 ， 人 们 从 一 开始 ， 就 试图 在 数据 中 寻找 
模式 。 猎 人 在 动物 迁徙 的 行为 中 寻找 模式 ; 农夫 在 庄稼 的 生长 中 寻找 模式 ; 政客 在 选民 的 
意见 上 寻找 模式 ; 恋人 在 对 方 的 反应 中 寻找 模式 。 科 学 家 的 工作 ( 像 一 个 婴儿 ) 是 理解 数 
据 ， 从 数据 中 找 出 模式 ， 并 用 它们 来 指导 在 真实 世界 中 如 何 运 作 ， 然 后 把 它们 概括 成 理 
论 ， 这 些 理论 能 够 预测 出 在 新 的 情况 下 会 发 生 什么 。 企 业 家 的 工作 是 要 辨别 出 机 会 ， 就 是 
那些 可 以 转变 成 有 利 可 图 的 生意 的 行为 中 的 一 些 模式 ， 并 且 利 用 这 些 机 会 。 
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在 数据 挖掘 (data mining) 中 ， 计 算 机 以 电子 化 的 形式 存储 数据 ， 并 且 能 自动 地 查询 
数据 ， 或 至 少 扩 增 数据 。 这 仍 算 不 得 新 鲜 事 。 经 济 学 家 、 统 计 学 家 、 预 测 家 和 信息 工程 师 
长 久 以 来 相信 ， 存 在 于 数据 中 的 模式 能 够 被 自动 地 找到 、 识 别 、 确 认 并 能 用 于 预测 。 该 理 
论 的 最 新 发 展 使 得 由 数据 中 找 出 模式 的 机 遇 剧 增 。 在 最 近 几 年 ， 数 据 库 急剧 膨胀 ， 如 每 天 
记录 顾客 选择 商品 行为 的 数据 库 ， 正 把 数据 挖掘 带 到 新 的 商业 应 用 技术 的 前 沿 。 据 估计 ， 
存储 在 全 世界 数据 库 里 的 数据 量 正 以 每 20 个 月 翻 一 倍 的 速度 增长 。 尽 管 很 难 从 量 的 意义 
上 真正 验证 这 个 数字 ， 但 是 我 们 可 以 从 质 上 把 握 这 个 增长 速度 。 随 着 数据 量 的 膨胀 ， 以 及 
利用 机 器 承担 数据 搜索 工作 已 变 得 普通 ， 数 据 挖 掘 的 机 会 正在 增长 。 世 界 正 越 来 越 丰富 多 
彩 ， 从 中 产生 的 数据 淹没 了 我 们 ， 数 据 挖掘 技术 成 为 我 们 洞察 构成 数据 的 模式 的 唯一 希 
望 。 被 充分 研究 过 的 数据 是 宝贵 的 资源 。 它 能 够 引导 人 们 去 获得 新 的 洞察 力 ， 用 商业 语言 
来 讲 就 是 获得 竞争 优势 。 

数据 挖掘 就 是 通过 分 析 存 在 于 数据 库 里 的 数据 来 解决 问题 。 例 如 ， 在 激烈 竞争 的 市 场 
上 ， 客 户 忠 诚 度 播 摆 问 题 就 是 一 个 经 常 提 到 的 事例 。 一 个 有 关 客 户 商品 选择 以 及 客户 个 人 
资料 的 数据 库 是 解决 这 个 问题 的 关键 。 以 前 客户 的 行为 模式 能 够 用 来 分 析 并 识别 那些 喜欢 
选 购 不 同 商品 和 那些 喜欢 选择 同 种 商品 的 客户 的 特性 。 一 旦 这 些 特 性 被 发 现 ， 它 们 将 被 用 
于 当前 实际 的 客户 群 中 ,鉴别 出 那些 善 变 的 客户 群体 ， 并 加 以 特殊 对 待 ， 须 知 对 整个 客户 
群 都 加 以 特殊 对 待 的 成 本 是 高 昂 的 。 更 确切 地 说 ， 同 样 的 技术 还 能 够 用 来 辨别 出 那些 对 企 
业 当 前 提供 的 服务 并 不 满意 ， 但 是 有 可 能 对 其 他 服务 感 兴趣 的 客户 群 ， 并 向 他 们 提供 特殊 
建议 ， 从 而 推广 这 些 服务 。 在 当代 竞争 激烈 、 以 客户 和 服务 为 中 心 的 经 济 中 ， 如 果 数 据 能 
够 被 挖掘 ， 它 将 成 为 推动 企业 发 展 的 原材料 。 

数据 挖掘 被 定义 为 找 出 数据 中 的 模式 的 过 程 。 这 个 过 程 必须 是 自动 的 或 〈 更 常见 的 
是 ) 半自动 的 。 数 据 的 总 量 总 是 相当 可 观 的 ， 但 从 中 发 现 的 模式 必须 是 有 意义 的 ， 并 能 产 
生出 一 些 效 益 ， 通 常 是 经 济 上 的 效益 。 

如 何 表示 数据 模式 ? 有 价值 的 模式 能 够 让 我 们 对 新 数据 做 出 非 平 凡 的 预测 。 表 示 一 个 
模式 有 两 种 极端 方法 : 一 种 是 内 部 结构 很 难 被 理解 的 黑匣子 ; 一 种 是 展示 模式 结构 的 透明 
匣子 ， 它 的 结构 揭示 了 模式 的 结构 。 我 们 假设 两 种 方法 都 能 做 出 好 的 预测 ， 它 们 的 区 别 在 
于 被 挖掘 出 的 模式 能 否 以 结构 的 形式 表现 ， 这 个 结构 是 否 能 够 经 得 起 分 析 ， 理 由 是 否 充 
分 ， 能 和 否 用 来 形成 未 来 的 决策 。 如 果 模 式 能 够 以 显而易见 的 方法 获得 决策 结构 ， 就 称 为 结 
构 模 式 ， 换 句 话 说， 它们 能 帮助 解释 有 关 数 据 的 一 些 现象 。 

现在 我 们 可 以 说 ， 本 书 是 有 关 和 寻找 、 描 述 存 在 于 数据 中 的 结构 模式 的 技术 。 我 们 所 涉 
及 的 大 部 分 技术 已 经 在 被 称 为 机 器 学 习 的 领域 里 开发 出 来 。 这 里 我 们 首先 介绍 什么 是 结构 
模式 。 


1.1.1. 描述 结构 模式 


结构 模式 (structural pattern). 是 什么 ”如何 描述 它们 ?用 什么 形式 输入 ?我 们 将 以 举 
例 的 形式 来 回答 这 个 问题 ， 而 不 是 尝试 给 出 正式 的 、 最 终 的 死板 定义 。 本 章 后 面 将 给 出 很 
多 例子 ， 现 在 让 我 们 从 一 个 例子 和 人手 来 体验 我 们 正在 讲解 的 内 容 。 

表 1-1 给 出 了 隐形 眼镜 的 一 组 数据 。 这 组 数据 是 验光 师 针 对 病人 的 情况 做 出 的 诊断 : 
使 用 软 的 隐形 眼镜 ， 硬 的 隐形 眼镜 ， 或 不 能 佩戴 隐形 眼镜 。 我 们 将 在 以 后 详细 讨论 属性 的 
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单独 意义 。 表 中 的 每 一 行 代 表 一 个 例子 。 下 面 是 有 关 这 个 信息 的 部 分 结构 描述 。 


If tear production rate = reduced then recommendation = none 
Otherwise, if age = young and astigmatic = no then 
recommendation = soft 


表 1-1 隐形 眼镜 数据 





spectacle tear production recommended 
age -a astigmatism 
prescription rate lenses 

young myope no reduced none 
young myope no normal soft 

young myope yes reduced none 
young myope yes normal hard 
young hypermetrope no reduced none 
young hypermetrope no normal soft 

young hypermetrope yes reduced none 
young hypermetrope yes normal hard 
pre- presbyopic myope no reduced none 
pre- presbyopic myope no normal soft 

pre- presbyopic myope yes reduced none 
pre- presbyopic myope yes normal hard 
pre- presbyopic hypermetrope no reduced none 
pre- presbyopic hypermetrope no normal soft 

pre- presbyopic hypermetrope yes reduced none 
pre- presbyopic hypermetrope yes normal none 
presbyopic myope no reduced none 
presbyopic myope no normal none 
presbyopic myope yes reduced none 
presbyopic myope yes normal hard 
presbyopic hypermetrope no reduced none 
presbyopic hypermetrope no normal soft 

presbyopic hypermetrope yes reduced none 
presbyopic hypermetrope yes normal none 


结构 描述 不 一 定 像 以 上 这 样 以 规则 的 形式 来 表达 。 另 一 种 流行 的 表达 方法 是 决策 树 ， 
它 明确 了 需要 做 出 的 决策 序列 以 及 伴随 的 建议 。 

这 是 一 个 非常 简单 的 例子 。 首 先 ， 这 个 表 呈 现 了 所 有 可 能 值 的 组 合 。 属 性 age (年 龄 ) 
有 3 种 可 能 值 ， 属 性 spectacle prescription (视力 诊断 ) 、astigmatism (散光 ) 和 tear produc- 
tion rate (有 眼泪 流速 ) 分 别 有 2 种 可 能 值 。 所 以 这 个 表 有 24 行 记录 (3 x2 x2 x2 =24)。 
上 面 所 提 到 的 规则 并 不 是 真正 从 数据 中 概括 出 来 的 ， 而 只 是 对 数据 的 总 结 。 在 多 数学 习 的 
情况 下 ， 所 给 出 的 样本 集 非常 不 完整 ， 所 以 我 们 的 一 部 分 工作 就 是 将 其 推广 到 其 他 新 的 样 
本 上 实现 一 般 化 。 用 户 可 以 想象 ， 如 果 从 上 面 的 表格 中 忽略 一 些 tear production rate 的 值 是 
reduced 的 行 ， 仍 然 可 以 得 出 规则 : 

If tear production rate = reduced then recommendation = none 

这 个 规则 可 以 推广 到 那些 遗失 的 行 ， 并 且 能 正确 地 把 它们 填充 到 表 里 去 。 其 次 ,样本 
中 的 每 一 个 属性 都 指定 了 一 个 值 。 现 实 的 数据 集 不 可 避免 地 存在 一 些 样本 ， 这 些 样本 中 的 
某 些 属 性 值 因为 一 些 原 因而 不 可 知 ， 例 如 数据 没有 被 测量 、 丢 失 或 其 他 原因 。 再 次 ， 上 面 
所 提 到 的 规则 能 正确 地 对 例子 进行 分 类 ， 但 是 通常 情况 下 ， 因 为 数据 中 存在 一 些 错误 或 者 
"KS (noise), ， 即 使 在 用 来 训练 分 类 器 的 数据 上 也 会 发 生 分 类 错误 的 情况 。 








1.1.2 机 器 学 习 


现在 我 们 已 经 有 一 些 输入 和 输出 的 概念 ， 下 面 我 们 将 转 人 机 器 学 习 的 主题 。 究 竟 什 么 
是 学 习 ? 什么 是 机 器 学 习 (machine learning)? 这 是 哲学 范畴 的 问题 ， 在 本 书 中 ， 我 们 将 
不 涉及 有 关 哲 学 的 问题 ， 而 着 重 立 足 于 实践 。 然 而 ， 在 着 手 开 始 研究 机 器 学 习 之 前 ， 值 得 
花 一 些 时 间 从 一 些 基 本 的 问题 和 人手， 和 弄 清 其 中 的 微妙 之 处 。 我 们 的 字典 所 给 出 的 “学 习 ” 
的 定义 如 下 : 

e 通过 学 习 、 体 验 或 者 被 教授 得 到 知识 。 

。 从 信息 或 观察 中 得 知 。 

。 获得 记忆 。 

© 被 告知 或 查 明 。 

。 接受 指令 。 

当 涉 及 计算 机 的 时 候 ， 这 些 定义 就 存在 一 些 缺 陷 。 对 于 前 两 条 ， 事 实 上 不 可 能 检测 学 
习 是 否 完成 。 我 们 怎么 能 知道 一 台 机 器 是 否 拥有 某 种 知识 ? 我 们 也 不 大 可 能 向 机 器 提出 问 
题 ; 即使 我 们 能 ， 那 也 只 是 在 测试 机 器 回答 问题 的 能 力 ， 而 不 可 能 测试 它 学 习 的 能 力 。 我 
们 又 如 何 知道 它 是 否 意识 到 什么 ” 有 关 计 算 机 是 否 能 意识 到 或 有 知觉 的 问题 是 一 个 激烈 争 
论 的 哲学 问题 。 

对 于 后 三 条 定义 ， 用 人 类 的 术语 来 说 ， 我 们 看 到 它们 做 出 的 贡献 局 限于 记忆 和 接受 指 
令 ， 这 个 定义 对 我 们 所 指 的 机 器 学 习 似 乎 太 简单 了 ， 也 太 被 动 了 ， 对 于 计算 机 来 说 ， 这 些 
任务 太平 凡 了 。 而 我 们 只 对 在 新 情况 中 性 能 的 改善 ， 或 至 少 性 能 所 具有 的 潜力 感 兴趣 。 你 
可 以 通过 死记 硬 背 的 学 习 方法 来 记忆 或 得 知 某 事 ， 但 却 没 有 能 力 在 新 的 情况 下 运用 新 的 知 
识 。 换 句 话 说， 你 也 能 够 得 到 指导 却 训 无 收益 。 

以 前 我 们 是 从 可 操作 的 角度 上 定义 机 器 学 习 : 机 器 学 习 是 从 大 量 的 数据 中 自动 或 半 自 
动 地 寻找 模式 的 过 程 ， 而 且 这 个 模式 必须 是 有 用 的 。 我 们 可 以 用 同样 的 方法 为 学 习 建立 一 
个 可 操作 的 定义 : 

。 当 事 物 以 令 其 自身 在 将 来 表现 更 好 为 标准 来 改变 其 行为 时 ， 它 学 到 了 东西 。 

这 个 定义 将 学 习 和 表现 而 不 是 知识 捆绑 在 一 起 。 你 可 以 通过 观察 和 比较 现在 和 过 去 的 
行为 来 评估 学 习 。 这 是 一 个 非常 客观 的 看 上 去 也 满意 得 多 的 定义 。 

但 是 仍然 存在 一 些 问题 。 学 习 是 一 个 有 点 圆滑 的 概念 。 很 多 事物 都 能 以 多 种 途径 改变 
它们 的 行为 ， 以 使 它们 能 在 未 来 做 得 更 好 ， 但 是 我 们 不 愿意 说 它们 已 经 真正 学 到 了 。 一 只 
舒服 的 拖鞋 就 是 一 个 很 好 的 例子 。 拖 鞋 学 到 了 脚 的 形状 了 吗 ? 当然 拖 鞋 确实 改变 了 它 的 外 
形 从 而 使 它 成 为 一 只 很 舒服 的 拖鞋 。 我 们 不 想 称 其 为 学 习 。 在 日 常 语言 中 ， 我 们 往往 使 用 
训练 这 个 词 引申 出 一 个 不 用 大 脑 的 学 习 。 我 们 训练 动物 甚至 植物 ， 尽 管 这 个 概念 可 从 训练 
像 拖鞋 一 类 没有 生命 的 事物 上 得 到 拓展 。 但 是 学 习 是 不 同 的 。 学 习 意 味 着 思考 和 目的 ， 并 
且 学 习 必 须 有 意 去 做 一 些 事 。 这 就 是 为 什么 我 们 不 愿 说 一 个 葡萄 萨 学 会 了 沿 着 葡萄 园 的 架 
子 生长 ， 而 说 它 已 经 被 训练 。 没 有 目的 的 学 习 只 能 是 训练 ， 或 者 进一步 说 ， 在 学 习 中 ， 目 
的 是 学 习 者 的 目的 ， 而 在 训练 中 ， 目 的 是 老师 的 目的 。 

因此 从 计算 机 的 视角 出 发 ， 以 可 操作 的 、 性 能 为 指导 的 原则 进一步 审视 第 二 种 学 习 的 
定义 时 ， 就 存在 一 些 问题 。 当 判断 是 否 真正 学 到 一 些 东 西 时 ， 需 要 看 它 是 否 打 算 去 学 ， 是 
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否 其 中 包含 一 些 目的 。 当 应 用 到 机 器 上 时 ， 它 使 概念 抽象 化 ， 因 为 我 们 无 法 弄 清 楚 人 工 制 
品 是 否 能 够 做 出 有 目的 的 举动 。 哲 学 上 有 关 学 习 真正 意味 着 什么 的 讨论 ， 就 像 有 关 目 的 或 
打算 真正 意味 什么 一 样 充 满 困 难 。 甚 至 法 院 也 很 难 把 握 “ 企 图 ”的 含义 。 


1.1.3 数据 挖掘 


幸运 的 是 ， 本 书 所 介绍 的 学 习 技 术 并 没有 呈现 出 这 种 概念 上 的 问题 ， 它 们 称 为 机 器 学 
习 ， 并 没有 真正 预示 任何 有 关 学 习 到 底 是 什么 的 特殊 的 哲学 态度 。 数 据 挖掘 是 一 个 特殊 的 
主题 ， 它 涉及 实践 意义 上 的 学 习 ， 而 不 是 理论 意义 上 的 学 习 。 我 们 对 从 数据 中 找 出 和 表达 
结构 模式 的 技术 感 兴趣 ， 这 个 结构 模式 能 作为 一 个 工具 来 帮助 解释 数据 ， 并 从 中 做 出 预 
测 。 数 据 是 以 一 个 样本 集 的 形式 出 现 ， 例 如 一 些 已 改变 其 忠诚 对 象 的 客户 的 样本 ， 或 者 一 
种 特定 的 隐形 眼镜 针对 某 种 特殊 情况 被 推荐 的 样本 。 输 出 是 以 对 新 的 样本 上 做 出 预测 的 形 
式 出 现 : 一 个 具体 客户 是 否 将 发 生 改 变 的 预测 ， 或 者 在 给 定 的 条 件 下 哪 种 隐形 眼镜 将 被 推 
荐 的 预测 。 但 是 本 书 是 关于 从 数据 中 找 出 和 阐述 模式 的 问题 ， 所 以 输出 将 同样 包括 一 个 真 
正 的 结构 描述 ， 这 个 结构 能 用 来 对 未 知 的 实例 进行 分 类 从 而 解释 决策 。 对 于 性 能 ， 它 有 助 
于 提供 一 个 清楚 的 所 需求 知识 的 表现 方法 。 从 本 质 上 说 ， 它 反映 了 以 上 提 到 的 两 种 学 习 的 
定义 : 知识 的 获得 和 使 用 知识 的 能 力 。 

许多 学 习 技 术 寻找 有 关 学 到 什么 知识 的 结构 描述 ， 这 种 描述 能 变 得 非常 复杂 ， 通 常 表 
现 为 如 上 所 示 的 一 套 规则 ， 或 者 本 章 将 要 阐述 的 决策 树 。 因 为 能 够 被 人 们 所 理解 ， 所 以 这 
种 描述 可 以 用 来 解释 已 经 学 到 什么 ， 换 句 话 说， 解释 关于 新 的 预测 的 基本 思想 。 经 验 表明 
许多 机 器 学 习 应 用 到 数据 挖掘 领域 中 时 ， 拥 有 清楚 的 知识 结构 是 必要 的 ， 结 构 描述 至 少 与 
在 新 的 例子 上 有 良好 的 表现 能 力 同 等 重要 。 人 们 频繁 地 使 用 数据 挖掘 不 只 为 了 预测 ， 也 为 
了 获得 知识 。 如 果 你 能 做 到 从 数据 中 获得 知识 ， 这 听 起 来 像 一 个 好 主意 。 下 面 的 内 容 将 指 
导 你 如 何 去 做 。 


1.2 简单 的 例子 : 天 气 问 题 和 其 他 问题 


在 本 书 中 ， 我 们 将 用 到 很 多 例子 。 本 书 内 容 都 是 关于 从 实例 中 学 习 知 识 ， 这 种 形式 就 
显得 格外 合适 。 我 们 将 不 断 提 到 一 些 标准 的 数据 集 。 不 同 的 数据 集 往往 揭示 出 新 的 问题 和 
挑战 ， 在 考虑 学 习 方 法 的 时 候 ， 对 不 同 问题 的 思考 对 研究 有 着 指导 意义 ， 也 会 增加 研究 的 
趣味 性 。 实 际 上 ， 有 必要 研究 不 同 的 数据 集 。 这 里 所 用 的 每 一 个 数据 集 都 由 一 百 多 个 实例 
问题 组 成 。 我 们 可 以 在 相同 的 问题 集 上 对 不 同 的 算法 进行 测试 和 比较 。 

本 节 所 用 的 例子 理想 化 地 简单 。 数 据 挖 掘 的 真正 应 用 对 象 是 由 数 千 个 ， 或 数 十 万 个 ， 
甚至 数 百 万 个 独立 的 样本 组 成 。 但 是 当 我 们 解释 算法 做 什么 和 如 何 做 的 时 候 ， 我 们 需要 一 
些 简 单 的 例子 ， 它 们 不 但 能 够 抓 住 问题 的 本 质 ， 而 且 小 的 数据 量 也 有 助 于 人 们 对 其 中 每 一 
个 细节 问题 的 理解 。 我 们 将 在 本 节 以 及 本 书 里 研究 这 些 例 子 。 这 些 例 子 比 较 倾 向 于 “学 术 
性 ”， 它 们 能 够 帮助 我 们 理解 将 要 发 生 什么 。 一 些 真 正在 专业 领域 里 运用 的 学 习 技 术 将 在 
1.3 节 中 讨论 ， 本 书 中 所 提 到 的 其 他 的 例子 将 在 本 章 的 补充 读物 部 分 提 及 。 

通常 真实 的 数据 集 还 存在 一 个 问题 : 私有 的 属性 。 没 有 人 愿意 与 你 共享 他 们 的 客户 和 
产品 选 购 的 数据 库 ， 从 中 让 你 理解 他 们 的 数据 挖掘 的 应 用 和 如 何 工作 的 细节 。 公 共 数 据 是 
非常 宝贵 的 资源 ， 它 们 的 价值 随 着 本 书 中 提 到 的 数据 挖掘 技术 的 发 展 而 急剧 增加 。 这 里 我 
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们 关注 的 是 对 数据 挖掘 方法 是 如 何 工作 的 理解 。 详 细 了 解数 据 挖掘 工作 的 细节 ， 有 利于 我 
们 跟踪 数据 挖掘 方法 在 真正 数据 上 的 操作 。 这 就 是 为 什么 我 们 使 用 一 些 简单 例子 的 原因 。 
这 些 例子 虽然 是 简单 的 ， 但 是 足以 表现 出 真正 数据 集 的 特性 。 


1.2.1 天气 问题 


天 气 问题 是 一 个 很 小 的 数据 集 ， 我 们 将 不 断 地 用 该 数据 集 来 说 明 机 器 学 习 的 方法 。 这 
完全 是 一 个 虚构 的 例子 ， 假 设 可 以 进行 某 种 体育 运动 的 天 气 条 件 。 总 的 来 说 ， 数 据 集中 的 
实例 由 一 些 特征 或 属性 值 来 表示 ， 这 些 值 是 从 不 同 的 方面 测量 样本 而 得 到 的 。 天 气 问题 有 
4 个 属性 : outlook (BAAR), temperature (温度 ) humidity (湿度 ) 和 windy ( 风 )， 结 论 
是 是 否 能 play ( 玩 ) 。 

d 1-2 是 天 气 问 题 一 个 最 简单 的 形式 。 所 有 的 4 个 属性 值 都 是 符号 类 别 (symbolic catego- 
res), .而 不 是 数值 。 其 中 ，outlook 属性 值 分 别 是 : sunny, overcast, rainy; temperature 属性 值 
分 别 是 : hot, mild, cool; humidity 属性 值 分 别 是 : high, normal; windy 属性 值 是 true, false, 
这 些 值 可 以 建立 36 个 可 能 的 组 合 (3 x3 x2 x2 =36) ， 其 中 的 14 个 样本 作为 输入 样本 。 





表 1-2 天 气 数据 
outlook temperature humidity windy play 
sunny hot high false no 
sunny hot high true no 
overcast hot high false yes 
rainy mild high false yes 
rainy cool normal false yes 
rainy cool normal tme no 
overcast cool normal true yes 
sunny mild high false no 
sunny cool normal false yes 
rainy mild normal false yes 
sunny mild normal true yes 
overcast mild high true yes 
overcast hot normal false yes 
rainy mild high true no 


从 这 些 信息 中 学 到 的 一 组 规则 ， 也 许 不 是 非常 好 ,但 是 形式 应 该 如 下 : 


If outlook = sunny and humidity = high then play = no 


If outlook = rainy and windy = true then play = no 
If outlook = overcast then play = yes 
If humidity = normal then play = yes 
If none of the above then play = yes 


这 些 规 则 按 先后 次 序 判断 : 首先 看 第 一 条 规则 ， 如 果 不 适用 ， 就 用 第 二 条 ， 如 此 下 去 。 如 
果 一 组 规则 按 次 序 判断 ， 称 为 决策 列表 (decision list)。 作 为 决策 列表 来 判断 时 ， 规 则 能 
对 表 中 的 所 有 实例 正确 地 进行 分 类 ， 如 果 脱 离 上 下 文 单独 地 使 用 规则 进行 判断 时 ， 有 些 规 
则 将 是 错误 的 。 人 例如， 规则 if humidity = normal then play = yes 将 错 分 一 个 样本 
(在 表 中 检查 哪个 实例 被 错 分 ) 。 训 无 疑问 ， 一 组 规则 的 意义 取决 于 它 是 如 何 被 解释 的 。 

表 1-3 是 一 个 比较 复杂 形式 的 天 气 问题 。 其 中 两 个 属性 : temperature 和 humidity 的 值 
是 数值 型 的 值 。 这 意味 着 许多 学 习 方 案 必须 对 两 个 属性 建立 不 等 式 ， 而 不 是 像 上 例子 所 描 
述 的 简单 的 相等 的 测试 。 这 个 问题 称 为 数值 属性 问题 (numeric- attribute problem) 。 因 为 并 
不 是 所 有 的 属性 都 是 数值 型 ， 所 以 也 叫做 混合 属性 问题 ( mixed- attribute problem) 。 
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表 1-3 ” 带 有 数值 属性 的 天 气 数据 








outlook temperature humidity windy play 
Sunny 85 85 false no 
Sunny 80 90 true no 
Overcast 83 86 false yes 
Rainy 70 96 false yes 
Rainy 68 80 false yes 
Rainy 65 70 true no 
Overcast 64 65 true yes 
Sunny 72 95 false no 
Sunny 69 70 false yes 
Rainy 75 80 false yes 
Sunny 75 70 true yes 
Overcast 72 90 true yes 
Overcast 81 75 false yes 
Rainy 71 91 true no 


所 以 第 一 条 规则 应 该 是 以 下 形式 : 

If outlook = sunny and humidity > 83 then play = no 
得 到 一 些 包含 数值 测试 的 规则 是 一 个 比较 复杂 的 过 程 。 

到 现在 为 止 我 们 看 到 的 规则 是 分 类 规则 (classification rule): 它们 以 是 否 能 玩 的 形式 
去 预测 样本 的 类 。 也 可 以 不 管 它 的 分 类 ， 仅 仅 寻找 一 些 规 则 ， 这 些 规 则 和 不 同 的 属性 值 紧 
密 关 联 ， 称 为 关联 规则 (association rule), MÆ 1-2 中 可 以 找到 许多 关联 规则 。 下 面 列 举 
出 一 些 好 的 关联 规则 : 


If temperature = cool then humidity - normal 
If humidity - normal and windy - false then play - yes 

If outlook = sunny and play = no then humidity - high 

If windy = false and play = no then outlook - sunny and 


humidity = high 

以 上 列 出 的 规则 对 于 所 给 数据 的 准确 率 达 到 10096 ， 它 们 没有 做 出 任何 错误 的 预测 。 
前 两 个 规则 分 别 适 用 于 数据 集中 的 4 个 样本 ， 第 三 个 适用 于 3 个 样本 ， 第 四 个 适用 于 2 个 
样本 。 除 此 以 外 还 能 找 出 很 多 其 他 规则 。 实 际 上 在 天 气 数 据 中 能 找 出 60 多 个 关联 规则 适 
用 于 两 个 以 上 的 样本 ， 并 且 是 完全 正确 的 。 如 果 要 寻找 小 于 100% 准确 率 的 规则 ， 将 会 找 
到 更 多 。 原 因 是 关联 规则 能 够 “预测 ”任何 属性 值 ， 并 且 能 够 预测 一 个 以 上 的 属性 值 ， 而 
分 类 规则 仅 预 测 一 个 特定 的 类 。 人 例如， 上面 第 四 个 规则 预测 结论 是 : outlook 是 sunny, hu- 
midity 是 high, 


1.2.2 隐形 眼镜 : 一 个 理想 化 的 问题 


前 面 介绍 的 隐形 眼镜 数据 ， 是 通过 给 出 的 一 些 有 关 病 人 的 信息 ， 向 病人 推荐 隐形 眼镜 
的 类 型 。 注 意 ， 这 个 例子 仅 为 了 说 明 问 题 ， 它 把 问题 过 于 简单 化 ， 不 能 用 于 实际 诊断 。 

表 1-1 的 第 一 列 给 出 了 患者 的 年 龄 。 这 里 需要 解释 一 下 : presbyopia 是 一 种 远视 眼 ， 
通常 发 生 在 中 等 年 纪 的 人 群 ; 第 二 列 是 眼镜 诊断 : myope 是 近视 ，hypermetrope 是 远视 ; 
第 三 列 显 示 患 者 是 否 散 光 ; 第 四 列 是 有 关 眼 泪 的 产生 速率 ， 这 是 一 个 重要 的 因素 ， 因 为 隐 
形 眼 镜 需 要 泪水 润滑 。 最 后 一 列 显 示 所 推荐 的 隐形 眼镜 的 种 类 : hard, soft 或 者 none, 3X 
个 表 呈 现 了 所 有 属性 值 的 组 合 。 

图 1-1 是 从 这 些 信息 中 学 到 一 组 规则 的 例子 。 这 是 一 个 比较 大 的 规则 的 集合 ， 但 是 它们 
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确实 对 所 有 的 例子 都 能 进行 准确 地 分 类 。 这 些 规则 是 完善 的 也 是 确定 的 : 它们 为 每 一 个 可 能 
的 例子 给 出 了 一 个 唯一 的 诊断 。 但 通常 不 是 这 样 的 。 有 时 在 某 些 情 况 下 没有 任何 规则 可 以 适 
用 ， 而 有 时 能 够 适用 的 规则 不 止 一 个 ， 从 而 会 产生 出 自 相 矛盾 的 建议 。 所 以 有 时 规则 有 可 能 
会 与 概率 或 者 权 联系 在 一 起 ， 指 出 其 中 的 一 些 规 则 相对 于 另 一 些 更 重要 ， 或 者 更 可 靠 。 


tear production rate = reduced then recommendation = none. 

age - young and astigmatic - no and tear production rate - normal 
then recommendation - soft 

age - pre-presbyopic and astigmatic - no and tear production 

rate - normal then recommendation - soft 

age - presbyopic and spectacle prescription - myope and 
astigmatic - no then recommendation - none 

Spectacle prescription - hypermetrope and astigmatic - no and 
tear production rate - normal then recommendation - soft 
spectacle prescription - myope and astigmatic - yes and 

tear production rate - normal then recommendation - hard 

age - young and astigmatic - yes and tear production rate - normal 
then recommendation - hard 

age - pre-presbyopic and spectacle prescription - hypermetrope 
and astigmatic - yes then recommendation - none 

age - presbyopic and spectacle prescription - hypermetrope 

and astigmatic - yes then recommendation - none 





图 1-1 隐形 眼镜 数据 的 规则 


你 也 许 想 知道 是 否 一 个 小 的 规则 集 也 有 很 好 的 表现 。 如 果 的 确 表现 好 的 话 ， 你 是 否 应 
该 使 用 小 的 规则 集 ， 为 什么 ? 本 书 将 正好 向 我 们 说 明了 这 一 类 问题 。 因 为 样本 形成 了 一 个 
完整 的 问题 空间 的 集合 。 规 则 只 是 总 结 了 所 有 给 出 的 信息 ， 并 以 一 个 不 同 的 、 更 精练 的 方 
式 来 表达 。 即 使 规则 没有 泛 化 ， 它 也 是 一 个 非常 有 用 的 分 析 问 题 的 方法 。 人 们 频繁 地 使 用 
机 器 学 习 技 术 来 洞察 数据 的 结构 ， 而 不 是 对 新 的 数据 做 出 预测 。 实 际 上 ， 在 机 器 学 习 领 
域 ， 一 个 永恒 的 成 功 的 研究 过 程 是 以 压缩 一 个 海量 数据 库 开 始 ， 这 个 海量 数据 库 的 数据 容 
量 相当 于 象棋 最 后 阶段 所 有 可 能 性 的 数量 ， 从 而 最 终 得 到 一 个 大 小 合理 的 数据 结构 。 为 这 
个 计划 所 选择 的 数据 结构 不 是 一 个 规则 集 ， 而 是 一 个 决策 树 。 

图 1-2 以 决策 树 的 形式 展示 了 关于 隐形 眼镜 
数据 结构 的 表达 ， 它 是 一 种 可 以 用 于 多 种 用 途 
的 更 为 简练 、 明 了 的 规则 表示 法 ， 并 且 有 更 易 
可 视 化 的 优势 或 形象 化 的 优势 (然而 ,与 图 1-1 
给 出 的 规则 集 相 比 ， 决 策 树 对 两 个 实例 的 分 类 
是 错误 的 ) 。 树 首先 对 tear production rate 进行 测 
试 ， 产 生 的 两 个 分 支 与 两 个 可 能 的 输出 结果 相 
对 应 。 如 果 tear production rate 是 reduced ( Æ 
支 ) ， 则 输出 是 none; 如 果 是 normal (x), 
则 第 三 个 测试 是 astigmatism 属性 。 最 后 ， 无 论 
测试 是 什么 结果 ， 所 达到 的 树 的 叶子 措 出 了 向 
病人 推荐 的 隐形 眼镜 的 种 类 。 从 机 器 学 习 的 方 
案 来 看 ， 什 么 才 是 最 自然 、 最 容易 被 理解 的 输 图 1-2 ”隐形 眼镜 数据 的 决策 树 
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出 形式 ， 有 关 这 部 分 内 容 将 在 第 3 章 讨论 。 


1.2.3 


营 尾 花 数 据 集 是 由 杰出 的 统计 学 家 R. A. Fisher 在 20 世纪 30 年 代 中 期 创建 的 ， 它 被 公 
认为 用 于 数据 挖掘 的 最 著名 的 数据 集 。 它 包含 3 种 植物 种 类 (Iris setosa, Iris versicolor 和 
Iris virginica) ， 每 种 各 有 SO 个 样本 。 表 1-4 摘录 了 这 个 数据 集 。 它 由 4 个 属性 组 成 : sepal 
length (KJE), sepal width (花药 宽度 ) petal length (ERIC HE) 和 petal width ( 4E 


Bat: 一 个 经 典 的 数值 型 数据 集 


PETE) (单位 是 em) 。 与 前 面 数据 集 不 同 的 是 ， 昔 尾 花 的 所 有 属性 都 是 数值 属性 。 





1-4 和 车 尾 花 数据 
sepal sepal petal petal us 
length (cm) width (cm) length (cm) width (cm) 
1 5.1 3.5 1.4 0.2 iris setosa 
2 4.9 3.0 1.4 0.2 iris setosa 
3 4.7 3.2 1.3 0.2 iris setosa 
4 4.6 3.1 1.5 0.2 iris setosa 
5 5.0 3.6 1.4 0.2 iris setosa 
51 7.0 3.2 4.7 1.4 iris versicolor 
52 6.4 3.2 4.5 1.5 iris versicolor 
53 6.9 3.1 4.9 1.5 iris versicolor 
54 5.5 2.3 4.0 1.3 iris versicolor 
55 6.5 2.8 4.6 1.5 iris versicolor 
101 6.3 3.3 6.0 2.5 iris virginica 
102 5.8 2.7 5.1 1.9 iris virginica 
103 7.1 3.0 5.9 2.1 iris virginica 
104 6.3 2.9 5.6 1.8 iris virginica 
105 6.5 3.0 5.8 2.2 iris virginica 


下 面 的 规则 集 是 从 这 个 数据 集中 学 到 的 : 


If 
If 
Tf 
If 
If 
Lf 
Tf 


IF 


I£ 
If 


If 


Tf 
EE 
If 
If 





petal-length < 2.45 then Iris-setosa 

sepal-width < 2.10 then Iris-versicolor 

sepal-width < 2.45 and petal-length < 4.55 then Iris-versicolor 

sepal-width < 2.95 and petal-width < 1.35 then Iris-versicolor 
petal-length 2 2.45 and petal-length < 4.45 then Iris-versicolor 
sepal-length > 5.85 and petal-length < 4.75 then Iris-versicolor 
sepal-width < 2.55 and petal-length < 4.95 and 

petal-width < 1.55 then Iris-versicolor 

petal-length 2 2.45 and petal-length < 4.95 and 

petal-width < 1.55 then Iris-versicolor 

sepal-length > 6.55 and petal-length < 5.05 then Iris-versicolor 
sepal-width < 2.75 and petal-width < 1.65 and 

sepal-length < 6.05 then Iris-versicolor 

sepal-length > 5.85 and sepal-length < 5.95 and 

petal-length < 4.85 then Iris-versicolor 

petal-length ? 5.15 then Iris-virginica 

petal-width > 1.85 then Iris-virginica 

petal-width 2 1.75 and sepal-width < 3.05 then Iris-virginica 
petal-length 2 4.95 and petal-width < 1.55 then Iris-virginica 


这 些 规 则 非常 繁琐 ， 我 们 将 在 第 3 章 看 到 如 何 用 更 紧凑 的 规则 表达 同样 的 信息 。 





1.2.4 CPU 性 能 : 介绍 数值 预测 


尽管 营 尾 花 数 据 集 包 含 数值 属性 ， 但 它 的 输出 〈 昔 尾 花 的 类 型 ) 是 一 个 类 别 ， 而 不 是 一 
个 数值 。 表 1-5 给 出 了 输出 和 属性 都 是 数值 型 的 一 些 数据 。 它 是 有 关 计 算 机 在 几 个 相关 属性 
上 处 理 能 力 的 相对 性 能 表现 。 每 一 行 表示 一 台 计 算 机 的 配置 ， 总 共有 209 个 不 同 的 计算 机 
配置 。 
表 1-5 CPU 性 能 数据 




















主 存 (Kb) 信道 
Performance 
Cycle Time(ns) Min Max Cache( KB) Min Max 
MYCT MMIN MMAX CACH CHMIN CHMAX PRP 
] 125 256 6000 256 16 128 198 
2 29 8000 32000 32 32 269 
3 29 8000 32000 32 8 32 220 
4 29 8000 32000 32 8 32 172 
5 29 8000 16000 32 8 16 132 
207 125 2000 8000 0 2 14 52 
208 480 512 8000 32 0 0 67 
209 480 1000 4000 0 0 0 45 

















处 理 连续 的 预测 值 的 传统 方法 是 把 结果 写成 一 个 线性 属性 值 的 和 ， 并 为 每 一 个 属性 加 

上 适当 的 权重 。 例 如 : 
PRP = - 55.9 + 0. 0489MYCT + 0. 0153MMIN + 0. 0056MMAX 
+ 0. 6410CACH - 0. 2700CHMIN + 1. 480CHMAX 

(缩写 的 变量 名 在 表 的 第 二 行 给 出 。) 这 个 公式 称 为 回归 公式 (regression equation) ， 确 定 
权 值 的 过 程 称 为 回归 (regression) 。 我 们 将 在 第 4 章 介 绍 一 种 在 统计 学 中 众所周知 的 回归 
过 程 。 然 而 ， 基 本 的 回归 方法 不 足以 发 现 非 线 性 关系 〈 尽 管 变 体 确 实 存在 ， 在 6.4 节 中 将 
阐述 其 中 的 一 个 ) 。 在 第 3 章 中 ， 我 们 将 考查 能 够 用 于 预测 数值 量 的 不 同 表现 方式 。 

fe ES AEA PH RAD BESS CPU 性 能 数据 中 ， 所 有 属性 都 是 数值 属性 。 而 实际 的 数据 通 
常 表现 为 数值 和 非 数值 属性 的 混合 形式 。 


1.2.5 劳资 协商 : 一 个 更 真实 的 例子 


表 1-6 是 劳资 协商 数据 集 ， 它 概括 了 加 拿 大 1987 一 1988 年 劳资 协商 的 结果 。 它 包括 那 
些 在 商界 和 个 人 服务 领域 之 间 ， 为 至 少 有 500 人 的 组 织 (教师 、 护 士 、 大 学 老师 、 警 察 ， 
AR) 达成 的 集体 协议 。 每 一 个 案例 涉及 一 个 合同 ， 结 果 是 合同 是 否 被 认为 可 接受 (accept- 
able) ， 或 者 不 可 接受 (unacceptable) 。 可 接受 的 合同 是 那些 劳工 和 管理 双方 都 能 接受 的 协 
议 。 那 些 不 可 接受 的 合同 是 因为 某 一 个 团体 不 愿 接受 ， 而 导致 提议 失败 ; 或 者 可 接受 的 合 
同 却 在 一 定 范围 内 引起 不 安 ， 因 为 从 专家 的 角度 来 看 ， 它 们 是 不 应 该 被 接受 的 。 

这 个 数据 集 有 40 个 样本 〈 另 外 通常 留 出 17 个 样本 给 测试 ) 。 与 其 他 表 不 同 ， 表 1-6 
是 以 列 而 不 是 行 的 形式 来 表示 样本 ， 否 则 表 的 宽度 将 要 延伸 好 几 页 。 其 中 一 些 未 知 或 残缺 
的 值 用 问号 来 标记 。 这 个 数据 集 比 我 们 先前 介绍 的 更 真实 。 它 存在 很 多 缺失 值 ， 看 上 去 似 
乎 不 太 可 能 得 到 一 个 准确 的 分 类 。 
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表 1-6 劳资 协商 数据 








属性 类 型 1 2 3 M 40 
duration ( number of years) 1 2 3 2 
wage increase 1st year percentage 2% 4% 4.3% 4.5 
wage increase 2nd year percentage ? 5% 4.4% 4.0 
wage increase 3rd year percentage ? ? ? ? 
cost- of- living adjustment {none, tcf, tc} none tef ? none 
working hours per week (number of hours ) 28 35 38 40 
pension [ none, ret-allw, empl-cntr} none ? ? ? 
standby pay percentage ? 13% ? ? 
shift- work supplement percentage ? 5% 4% ? 
education allowance yes, no} yes 9 ? ? 
statutory holidays ( number of days) 11 15 12 12 
vacation | below-avg, avg, gen} avg gen gen avg 
long-term disability assistance yes, no} no ? ? yes 
dental plan contribution none, half, full} none ? full full 
bereavement assistance yes, no} no 7 7 yes 
health plan contribution none, half, full} none ? full half 
acceptability of contract good, bad! bad good good good 





图 1-3 展示 了 表示 数据 集 的 两 个 决策 树 。 图 1-3a 是 一 种 简单 且 近 似 的 形式 ， 它 并 没有 
准确 地 表示 数据 。 例 如 ， 对 一 些 实际 上 被 标注 为 good (好 的 ) Al, EMMA bad (H 
的 ) 结果 。 但 是 它 做 出 了 直觉 的 判断 : 如 果 第 一 年 工资 的 增长 幅度 (wage increase Ist 
year) 很 小 〈( 小 于 2.5% ) ， 那 么 这 个 合同 就 是 坏 的 〈 对 雇员 来 说 ) 。 如 果 第 一 年 工资 的 增 
长 大 于 这 个 百分比 ， 而 且 还 有 很 多 法 定 假期 (statutory holidays) (超过 10 天 ) ， 那 么 它 就 
是 好 的 。 如 果 法 定 假期 比较 少 ， 但 是 如 果 第 一 年 工资 的 增长 幅度 足够 的 大 (KF 4%), 
那么 它 也 是 好 的 。 


wage increase Ist yeap 





wage increase Ist yea 








图 1-3 劳资 协商 数据 的 决策 树 


图 1-3b 是 一 个 更 为 复杂 的 决策 树 ， 表 示 了 同一 个 数据 集 。 顺 着 左 支 仔 细 向 下 看 ， 直 
觉 上 并 不 能 使 人 理解 为 什么 当 每 周 工作 时 间 (working hours per week) 超过 36 小 时 时 ， 如 
果 没 有 给 出 健康 计划 (health plan contribution) 或 者 给 出 一 个 完整 的 健康 计划 ， 那 么 这 个 
合同 就 是 坏 的 ; 但 是 如 果 给 出 了 一 半 的 (half) 健康 计划 ， 这 个 合同 却 又 变 成 好 的 了 。 健 
康 计划 在 决策 中 要 起 作用 是 十 分 合理 的 ， 但 是 不 能 说 制定 了 一 半 的 健康 计划 是 好 的 ， 而 拥 
有 完整 健康 计划 和 没有 健康 计划 是 坏 的 。 然 而 ， 仔 细 考 虑 可 以 发 现 这 毕竟 还 是 有 意义 ， 因 
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为 “好 的 ”合同 是 那些 工人 和 管理 者 两 方 都 能 接受 的 合同 。 也 许 这 个 结构 反映 的 是 达成 协 
议 所 要 做 的 妥协 。 这 种 关于 决策 树 某 部 分 相应 意义 的 精细 推理 为 更 好 地 了 解数 据 以 及 考虑 
潜在 的 问题 提供 了 好 的 方法 。 

实际 上 ， 与 图 1-3a 相 比 ， 图 1-3b 是 对 训练 数据 集 更 为 准确 的 表示 。 但 是 它 不 一 定 是 
好 、 坏 合同 概念 上 一 个 更 准确 的 表示 。 尽 管 它 在 分 析 用 于 训练 分 类 器 的 数据 时 拥有 更 高 的 
准确 性 ， 但 是 在 分 析 一 个 独立 的 测试 数据 集 时 ， 它 的 性 能 可 能 有 所 降低 。 它 可 能 出 现 对 训 
练 数据 “过 度 拟 合 ” (overfitted) ， 即 过 于 符合 训练 数据 。 图 1-3a 是 将 图 1-3b 剪 枝 以 后 得 
到 的 树 。 有 关内 容 将 在 第 6 章 进行 学 习 。 


1.2.6 X843: 一 个 经 典 的 机 器 学 习 的 成 功 例子 


在 将 机 器 学 习 应 用 于 解决 实际 问题 时 ， 经 常 引用 的 一 个 早期 的 成 功 案例 是 为 诊断 大 豆 疾 
病 找 出 鉴别 规则 。 数 据 是 从 描述 大 豆 作物 疾病 的 问卷 调查 表 中 采集 的 。 总 共有 680 多 个 样 
本 ， 每 一 个 样本 表示 一 个 有 病 的 大 豆 作物 。 大 豆 苗 从 35 个 属性 方面 被 检测 ， 每 一 个 属性 拥 
有 一 组 小 范围 的 可 能 值 。 所 有 样本 都 由 一 个 植物 生物 学 领域 的 专家 标记 上 诊断 结果 。 有 19 
个 疾病 类 别 ， 这 些 铠 怖 的 疾病 包括 腐 皮 壳 菌 层 茎 杆 演 疡 、 丝 核 菌 根 腐烂 、 细 菌 枯萎 病 等 。 

表 1-7 给 出 了 所 有 属性 ， 每 个 属性 拥有 多 个 不 同 的 值 ， 每 一 个 实例 记录 一 个 特定 的 植 
株 。 为 了 便于 阅读 ， 所 有 属性 被 划分 到 不 同 的 分 类 中 。 




















#1-7 大 豆 数据 
属性 取 值 个 数 样本 值 
environment time of occurrence 7 July 
precipitation 3 above normal 
temperature 3 normal 
cropping history 4 same as last year 
hail damage 2 yes 
damaged area 4 scattered 
severity 3 severe 
plant height 2 normal 
plant growth 2 abnormal 
seed treatment 3 fungicide 
germination 3 less than 80% 
seed condition 2 normal 
mold growth 2 absent 
discoloration 2 absent 
size 2 normal 
shriveling 2 absent 
fruit condition of fruit pods 3 normal 
fruit spots 5 — 
leaves condition 2 abnormal 
leaf spot size 3 = 
yellow leaf spot halo 3 absent 
leaf spot margins 3 — 
shredding 2 absent 
leaf malformation 2 absent 
leaf mildew growth 3 absent 
stem condition 2 abnormal 
stem lodging 2 yes 
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( 续 ) 
属性 取 值 个 数 样本 值 
stem cankers 4 above soil line 
canker lesion color 3 = 
fruiting bodies on stems 2 present 
external decay of stem 3 firm and dry 
mycelium on stem 2 absent 
internal discoloration 3 none 
sclerotia 2 absent 
roots condition 3 normal 
diagnosis 19 diaporthe stem canker 


TIBASEIT BOTH 的 规则 的 例子 。 


leaf condition = normal and 
stem condition = abnormal and 
stem cankers - below soil line and 
canker lesion color - brown 
then 
diagnosis is rhizoctonia root rot 


If leaf malformation - absent and 
stem condition - abnormal and 
stem cankers - below soil line and 
canker lesion color - brown 

then 


diagnosis is rhizoctonia root rot 

这 些 规则 很 好 地 展示 了 先 验 知识 的 潜在 作用 ， 在 机 器 学 习 领 域 通常 也 称 为 领域 知识 
(domain knowledge) ， 这 是 因为 实际 上 这 两 种 描述 的 区 别 仅仅 在 于 一 种 是 叶子 状态 是 正 
常 的 〈leaf condition is normal) ， 另 一 种 是 叶子 畸形 不 存在 (leaf malformation is absent) 。 
如 今 在 这 个 领域 中 ， 如 果 叶 子 状 态 是 正常 的 ， 那 么 叶子 就 不 可 能 是 畸形 。 所 以 以 上 任何 
一 种 情况 的 发 生 将 是 另外 一 种 情况 的 一 个 特例 。 因 此 如 果 第 一 条 规则 是 正确 的 ， 
二 条 必定 是 正确 的 。 当 叶子 不 是 畸形 ， 但 叶子 状态 不 正常 时 ， 就 要 运用 第 二 条 规则 ， 
dA, VOR DUM AE a SAN ERIT Lee 
显而易见 的 。 

fk 20 世纪 70 年 代 末 的 研究 中 发 现 ， 每 一 个 疾病 类 型 的 诊断 规则 都 能 由 机 器 学 习 算法 
从 300 个 训练 样本 中 建立 。 这 些 训练 样本 是 从 整个 病例 库 中 精心 挑选 出 来 的 ， 每 一 个 样本 
都 截然 不 同 ， 并 且 在 样本 空间 “相隔 很 远 ” 。 与 此 同时 再 对 那些 做 出 诊断 的 植物 病理 学 家 
进行 访问 ， 然 后 把 他 们 的 专家 经 验 翻译 成 诊断 的 规则 。 令 人 惊奇 的 是 ， 与 专家 产生 的 规则 
相 比 ， 计 算 机 产生 的 规则 在 剩余 的 测试 实例 上 有 更 卓越 的 表现 。 它 对 病毒 预测 的 准确 率 达 
到 97.5% ， 相 对 而 言 ， 由 专家 给 出 的 规则 的 准确 率 只 有 72% 。 此 外 ， 不 仅 由 学 习 算 法 发 
现 的 规则 胜 过 合作 专家 的 结果 ， 而 且 用 〈 学 习 算 法 ) 揭示 的 规则 代替 了 专家 自己 的 规则 ， 
令 人 惊讶 。 
1.3 应 用 领域 

我 们 在 开始 处 介绍 的 例子 是 猜测 性 的 研究 项 目 ， 不 是 产品 系统 。 以 上 所 示 的 数据 都 是 
一 些小 问题 ， 我 们 特意 选择 一 些小 型 的 例子 来 应 用 书 中 所 提 到 的 算法 。 那 么 真正 运用 在 哪 


里 ? 这 里 将 介绍 一 些 真正 进入 实际 应 用 的 机 器 学 习 方 法 。 
在 应 用 领域 中 ， 强 调 性 能 方面 学 习 的 使 用 ， 重 点 是 在 新 的 样本 上 有 和 良好 的 表现 能 力 。 
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本 书 同时 也 描述 了 使 用 学 习 系 统 从 由 数据 推断 出 的 决策 结构 中 获得 知识 。 我 们 相信 这 与 做 
出 高 质量 的 预测 一 样 重要 ， 也 许 在 将 来 作为 技术 运用 后 还 会 更 加 重要 。 但 是 它 在 应 用 领域 
尚 缺乏 代表 性 ， 因 为 当 使 用 学 习 技 术 来 深入 探索 时 ， 结 论 通常 不 是 一 个 能 运用 在 实际 工作 
中 的 应 用 系统 。 然 而 ， 从 下 面 的 三 个 例子 可 以 看 出 ， 决 策 结构 是 可 以 理解 的 ， 它 是 衡量 方 
案 是 否 成 功 的 一 个 关键 特征 。 


1.3.1 Web 挖掘 


万 维 网 中 的 信息 挖掘 现 正成 为 一 个 急速 发 展 的 领域 。 搜 索引 擎 公司 通过 考察 网 页 之 间 的 
超 链 接 得 到 网 页 和 网 站 的 “权威 性 ”度量 。 权 威 性 (prestige) 在 字典 中 的 定义 是 “通过 成 
功 和 影响 力 所 取 得 的 高 地 位 ”。PageRank 这 个 度量 值 就 是 用 来 度量 网 页 的 权威 性 ， 它 由 谷歌 
创始 人 发 明 并 被 很 多 搜索 引擎 开发 商 以 各 种 形式 所 采用 。 链 接 到 你 网 站 的 网 页 越 多 ， 你 的 网 
站 的 权威 值 也 就 越 高 ， 特 别 是 当 这 些 链 接 到 你 网 站 的 网 页 其 本 身 也 具有 高 权威 值 的 时 候 。 这 
个 定义 听 起 来 好 像 有 点 循环 定义 的 意味 ， 但 它 完 全 可 行 。 搜 索引 擎 使 用 PageRank (也 包括 其 
他 一 些 度量 ) 这 个 度量 值 将 网 页 进行 排序 ， 然 后 将 排序 后 的 结果 返回 给 用 户 。 

搜索 引擎 还 采用 另外 一 种 方法 来 处 理 网 页 排名 问题 ， 那 就 是 基于 查询 实例 训练 集 的 机 
器 学 习 方 法 ,训练 集 包括 蕴含 查询 关键 词 的 文档 ， 以 及 由 人 工 判 断 的 文档 和 查询 之 间 的 相 
关 性 。 然 后 可 以 通过 一 种 学 习 算法 来 分 析 训 练 数据 并 得 到 一 种 预测 任意 文档 和 查询 之 间 相 
关 性 的 方法 。 我 们 计算 得 到 每 一 个 文档 的 一 系列 特征 值 ， 这 些 特 征 值 的 取 值 取 决 于 查询 关 
键 词 的 具体 情况 ， 比 如 关键 词 是 否 出 现在 标题 标签 中 、 是 否 出 现在 文档 的 URL 中 、 在 文 
档 中 出 现 的 频率 是 多 少 ， 以 及 它 在 指向 该 文档 的 超 链接 的 锚 文本 中 出 现 的 频率 是 多 少 。 如 
果 是 多 关键 词 查询 ， 特 征 值 还 包括 两 个 不 同 关 键 词 在 文档 中 紧 靠 着 出 现 的 频率 大 小 等 。 特 
征 值 的 种 类 很 多 ， 典 型 的 用 于 排名 学 习 的 算法 通常 包含 成 百 上 千 种 特征 值 。 

搜索 引擎 不 但 可 以 挖掘 Web 内 容 ， 还 能 挖掘 用 户 的 查询 内 容 ， 即 用 户 查 询 关键 词 ， 以 
此 来 针对 客户 可 能 的 兴趣 进行 广告 精准 投放 。 搜 索引 苟 公司 有 很 大 的 动力 来 实现 广告 精准 投 
放 ， 因 为 广告 提供 商会 根据 用 户 的 点 击 量 来 支付 搜索 引擎 公司 相应 的 报酬 。 搜 索引 擎 公司 还 
挖掘 用 户 的 点 击 信息 ， 用 户 在 返回 的 搜索 结果 中 的 点 击 信息 本 身 就 草 含 了 有 用 的 知识 ， 这 些 
知识 有 助 于 进一步 提高 用 户 的 搜索 质量 。 在 线 售 书 商 通过 挖掘 购书 数据 库 中 的 信息 得 到 很 多 
购物 推荐 ， 比 如 “购买 这 本 书 的 客户 同时 也 购买 那 本 书 ”; 同样 ， 这 些 售 书 商 也 具有 很 大 的 
动力 来 向 客户 推荐 那些 诱 人 的 、 个 性 化 的 选项 。 电 影 网 站 根据 某 用 户 之 前 的 选择 以 及 其 他 用 
户 的 选择 来 进行 电影 推荐 ， 他 们 的 僵 利 水 平 取决 于 其 网 站 用 户 的 回头 率 。 

男 外 ， 还 有 社交 网 络 以 及 其 他 一 些 个 人 数据 值得 关注 。 我 们 生活 在 一 个 “自我 暴露 ” 
的 时 代 : 人 们 在 博客 和 推 特 上 分 享 自己 最 隐秘 的 想法 ,以 及 他 们 的 照片 ， 他 们 对 音乐 和 电 
影 的 品味 ， 他 们 对 书 、 软 件 、 小 工具 以 及 酒店 的 看 法 ， 还 有 他 们 的 社交 生活 。 他 们 也 许 坚 
信和 所 参与 的 这 些 网 络 活动 都 是 匿名 的 或 者 假名 的 ， 但 是 他 们 的 想法 通常 都 错 了 (我 们 在 
1.6 节 中 会 谈 到 这 个 问题 ) 。 总 之 ， 依 靠 Web 挖掘 鳃 利 有 着 巨大 的 商业 前 景 。 


1.3.2 包含 评判 的 决策 


当 你 申请 贷款 时 ， 你 必须 填 一 张 有 关 金 融和 个 人 信息 的 调查 表 。 信 贷 公 司 根据 这 些 基 
本 信息 做 出 决策 : 是 否 批准 你 的 贷款 。 这 些 决 策 的 制定 要 通过 两 个 阶段 完成 。 首 先 ， 运 用 
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统计 方法 来 决定 那些 明确 能 “接受 ”或 “拒绝 ”的 案例 。 其 次 ， 剩 下 是 处 于 临界 线 的 比 
较 复 杂 的 案例 ， 需 要 人 来 做 出 判断 。 

例如 ， 一 个 信贷 公司 使 用 一 个 统计 决策 过 程 产 生 一 个 数值 参数 ， 这 个 参数 是 从 调查 表 
提供 的 信息 中 计算 出 来 的 。 如 果 这 个 参数 超过 一 个 预先 设 定 的 标准 ， 申 请 人 将 被 接受 ; 如 
果 低 于 标准 的 下 限 ， 申 请 人 将 被 拒绝 。 这 个 方案 能 够 处 理 90% 的 案例 ， 剩 下 的 10% 需要 
由 信贷 员 亲 自 做 出 决策 。 对 申请 人 能 和 否 真正 偿还 他 们 贷款 的 历史 数据 的 研究 表明 ， 有 超过 
一 半 处 于 临界 的 并 得 到 贷款 的 申请 人 未 按期 付款 。 当 然 如 果 拒 绝 给 达到 临界 条 件 的 申请 人 
贷款 ， 将 使 问题 简单 化 。 但 是 信贷 公司 的 专业 人 士 指出 ， 如 果 能 够 可 靠 地 探 明 那些 在 未 来 
有 偿还 能 力 的 客户 ， 那 么 公司 必须 争取 这 些 客户 。 他 们 通常 是 信用 机 构 里 较 活 路 的 客户 ， 
他 们 的 资金 长 期 处 于 不 稳定 状态 。 因 此 在 一 个 不 喜欢 坏账 的 公司 会 计 和 一 个 追求 业绩 的 销 
售 主管 之 间 ， 必 须 达 成 一 个 合适 的 妥协 。 

把 这 个 例子 引入 机 器 学 习 中 。 在 这 个 案例 中 ， 输 入 由 1000 个 训练 样本 组 成 ， 这 些 样 
本 是 处 于 临界 线 并 得 到 贷款 的 案例 ， 而 且 标 明 借贷 人 是 否 最 终 偿 还 了 贷款 。 每 一 个 训练 样 
本 由 调查 表 里 提取 的 20 多 个 属性 组 成 ， 如 年 龄 、 为 当前 雇主 工作 的 年 数 、 在 当前 地 址 居 
住 的 年 数 、 拥 有 银行 账户 的 年 数 ， 以 及 所 持 有 的 其 他 信用 卡 。 用 一 个 机 器 学 习 程 序 生 成 了 
一 个 小 的 分 类 规则 集 ， 它 在 一 个 单独 选 出 的 测试 集 上 正确 预测 了 2/3 处 于 临界 线 的 案例 。 
这 些 规 则 的 使 用 不 但 提高 了 信贷 决策 的 成 功率 ， 而 且 信贷 公司 发 现 可 以 用 它们 向 客户 解释 
决策 背后 的 原因 。 尽 管 这 是 一 个 探索 中 的 项 目 ， 只 取得 一 些小 的 发 展 成 果 ， 但 是 信贷 公司 
显然 对 得 到 的 结果 很 高 兴 ， 因 为 所 得 到 的 规则 能 够 立刻 运用 到 实际 工作 中 。 


1.3.3 图 像 筛选 


从 卫星 技术 发 展开 始 ， 环 境 科 学 家 就 已 经 试图 从 卫星 图 片上 探测 出 浮 油 区 域 , 为 了 能 
及 早 给 出 生态 灾难 的 警报 和 制止 非法 倾倒 的 行为 。 雷 达 卫 星 为 监控 沿海 水 域 提供 了 机 遇 ， 
因为 它 不 受 白 天 、 黑 夜 以 及 天 气 条 件 的 影响 。 浮 油 区 域 将 以 一 个 深 色 区 域 出 现在 图 像 上 ， 
它 的 大 小 、 形 状 的 发 展 变化 取决 于 天 气 和 海洋 条 件 。 然 而 ， 其 他 一 些 看 上 去 比较 深 色 的 区 
域 是 由 于 当地 的 气候 条 件 ， 如 大 风 造 成 的 。 区 别 出 浮 油 区 域 是 一 个 代价 很 高 的 手动 过 程 ， 
需要 接受 过 培训 的 人 员 进 入 到 图 片 中 的 每 一 个 区 域 进行 实地 调查 。 

现在 ， 已 经 开发 了 一 个 危险 探测 系统 ， 它 能 代替 手动 完成 后 续 处 理 ， 从 中 筛选 图 片 。 目 
的 是 销售 给 世界 范围 内 的 广大 终端 用 户 。 因 为 各 个 政府 机 构 和 公司 处 于 不 同 的 地 域 ， 有 着 不 
同 的 目标 和 应 用 ， 所 以 系统 需要 高 度 可 定制 来 适应 不 同 的 需求 。 机 器 学 习 用 由 用 户 提供 的 浮 
油 区 域 和 非 浮 油 区 域 的 图 像样 本 来 训练 系统 ， 并 且 能 让 用 户 控制 如 何在 未 能 察觉 到 的 浮 油 区 
域 和 虚假 警报 之 间 进 行 权 衡 。 与 其 他 机 器 学 习 应 用 的 不 同 之 处 在 于 ， 这 个 学 习 方 案 本 身 将 投 
入 到 实际 应 用 领域 里 ， 而 其 他 的 则 是 先 产 生 一 个 分 类 器 ， 然 后 投入 到 实际 应 用 中 。 

这 里 的 输入 是 从 雷达 卫星 获得 的 一 个 原始 的 像素 图 像 集 ， 而 输出 是 一 个 非常 小 的 图 像 
集 ， 这 些 图 像 是 推断 出 的 浮 油 区 域 ， 并且 用 彩色 的 边框 加 以 标记 。 在 这 一 过 程 中 ， 首 先 需 
要 运用 标准 图 像 操 作对 图 像 进行 规范 化 处 理 。 接 着 ,识别 出 可 疑 的 深 色 区 域 。 从 每 一 个 区 
域 提 取 数 十 个 属性 用 于 刻画 区 域 的 规模 、 形 状 、 面 积 、 色 彩 饱 和 度 、 边 界 的 锐利 度 和 锯齿 
形状 、 附 近 的 其 他 区 域 ， 以 及 有 关 的 邻近 区 域 的 背景 信息 。 最 后 把 标准 的 学 习 技术 运用 在 
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在 此 过 程 中 遇 到 了 一 些 有 趣 的 问题 。 第 一 ， 用 于 训练 的 数据 极 少 。 (幸运 的 是 ) 原油 
泄漏 事件 是 很 少 发 生 的 ， 而 人 工分 类 的 成 本 极其 昂贵 。 第 二 ， 问 题 的 不 均衡 性 : 在 训练 数 
据 中 ， 极 少 比例 的 深 色 区 域 是 由 真正 的 浮 油 造成 的 。 第 三 ， 样 本 自然 地 组 成 批 ， 每 一 批 都 
是 从 一 个 图 像 中 提取 的 区 域 的 集合 ， 批 与 批 之 间 的 背景 是 不 一 样 的 。 第 四 ， 目 标 性 能 任务 
是 提供 像 过 滤器 一 样 的 服务 ， 并 且 必 须 为 用 户 提供 一 个 可 变更 虚假 报警 率 的 简便 方法 。 


1.3.4 负载 预测 


在 电力 供应 行业 ， 尽 可 能 早 地 判断 出 未 来 电力 的 需求 量 有 着 重要 的 意义 。 如 果 能 准确 
地 估计 出 每 小 时 、 每 天 、 每 月 、 每 季 和 每 年 的 最 大 和 最 小 负载 ， 那 么 电力 公司 能 够 在 很 多 
领域 ， 如 运作 储备 、 维 护 调度 ， 以 及 燃料 库存 管理 上 取得 巨大 的 经 济 效益 。 

在 过 去 十 年 里 ， 一 个 自动 的 负载 预测 助理 已 经 为 一 个 主要 的 电力 供应 商工 作 了 ， 它 
能 够 提前 两 天 提供 每 小 时 负载 的 预测 。 完 成 这 个 预测 需要 利用 过 去 15 年 收集 的 数据 手 
动 建立 一 个 复杂 的 模型 。 这 个 模型 有 3 个 组 件 : 年 基本 负载 量 、 年 内 负载 周期 以 及 假期 
的 影响 。 要 得 到 基本 负载 就 需要 将 数据 做 标准 化 处 理 ， 也 就 是 对 前 一 年 数据 进行 标准 
化 ， 方 法 是 : 每 小 时 读 出 的 负载 数值 减 去 每 小 时 平均 负载 量 ， 然 后 除 以 全 年 负载 的 标 
准 差 。 

电力 负载 在 3 个 基本 频率 上 显示 出 周期 性 的 变化 : 每 天 ， 电 的 用 量 在 早晨 最 低 ， 而 中 
午 和 晚上 达到 最 高 ; 每 周 ， 电 力 需 求 在 周末 的 时 候 较 低 ; 按 季节 统计 ， 电 力 需 求 量 在 每 年 
的 冬季 和 夏季 增加 ,分 别 是 为 了 取暖 和 降温 的 需要 ; 在 一 些 主要 的 节假日 里 ， 如 感恩 节 、 
圣诞 信和 新 年 ， 电 力 负载 与 平时 相 比 显示 出 急剧 的 变化 ， 对 于 这 些 特殊 时 段 要 分 别 用 过 去 
15 年 在 同一 天 每 小 时 的 平均 负载 量 单独 进行 建 模 。 一 些 次 要 的 官方 节假日 ， 如 哥伦布 日 ， 
将 和 学 校 假期 一 起 作为 正常 日 (消费 ) 模型 的 分 支 进行 处 理 。 以 典型 时 段 的 次 序 综合 考虑 
所 有 因素 重建 一 年 的 负载 ， 接 着 把 节假日 插入 到 正确 的 位 置 ， 然 后 对 负载 进行 反 规范 化 ， 
从 而 计算 出 大 致 的 增长 量 。 

综 上 所 述 ， 所 建 的 负载 模型 是 静态 的 ， 是 从 历史 数据 中 手动 建立 起 来 的 ， 并 且 隐 含 地 
假设 全 年 的 天 气 情况 “正常 ”。 最 后 一 步 ， 要 考虑 天 气 条 件 的 影响 ， 使 用 一 个 技术 找 出 历 
史上 与 当前 情况 相似 的 一 天 ， 并 把 那天 的 历史 信息 作为 一 个 预测 器 。 这 时 的 预测 是 对 静态 
负载 模型 的 一 次 附加 修正 。 为 了 防止 出 现 较 大 偏差 ， 需 要 找 出 非常 相似 的 8 天 ， 取 它们 附 
加 修正 值 的 平均 值 。 为 此 需要 建立 一 个 数据 库 记 录 当 地 3 个 气象 中 心 在 过 去 15 年 里 每 小 
时 的 温度 、 湿 度 、 风 速 和 云层 覆盖 度 ， 以 及 真实 负载 与 由 静态 模型 预测 的 负载 量 之 间 的 差 
异 。 用 一 个 线性 回归 分 析 方法 分 析 相 关 的 参数 对 负载 的 影响 ， 并 且 使 用 回归 系数 对 用 于 寻 
找 最 相似 日 子 的 距离 函数 进行 度量 。 

这 个 系统 表现 出 与 受过 培训 的 专业 人 员 相 近 的 预测 能 力 ， 但 预测 的 速度 更 快 ， 只 要 几 
秒 而 不 是 几 小 时 就 能 对 某 一 天 做 出 预测 。 操 作 人 员 可 以 通过 分 析 预 测 结果 对 天 气 变 化 的 敏 
感 程度 来 验证 系统 为 修正 预测 结果 所 使 用 的 天 气 变化 “最 相似 ”的 日 子 。 


1.3.5 诊断 


诊断 是 一 个 专家 系统 的 主要 应 用 领域 。 虽 说 手动 编写 的 规则 在 专家 系统 中 通常 运作 很 
好 ， 但 有 时 会 过 于 耗费 人 工 ， 在 这 种 情况 下 机 器 学 习 就 会 有 用 。 
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对 于 电机 设备 ， 例 如 ， 发 动机 和 发 电机 ， 预 防 性 的 维护 能 够 避免 由 于 故障 而 导致 工业 
生产 过 程 的 中 断 。 机 械 师 定期 检查 每 一 台 设 备 ， 在 不 同 的 位 置 测量 设备 的 振动 状况 ， 判 断 

台 设 备 是 否 需要 维修 。 典 型 的 故障 形式 包括 轴 心 偏 移 、 机 构 松 好、 轴承 失效 和 泵 动 不 平 
衡 。 某 个 化 学 工厂 拥有 1000 多 台 不 同 的 设备 ， 范 围 从 很 小 的 泵 到 非常 大 的 涡轮 交流 发 电 
机 ， 这 些 设 备至 今 仍 需要 由 有 二 十 多 年 工作 经 验 的 专家 进行 诊断 。 通 过 对 设备 装置 上 的 不 
同位 置 振动 的 测量 ， 并 使 用 伟 里 叶 分 析 法 在 三 个 轴 向 上 检测 在 基本 转速 下 每 一 个 共振 所 产 
生 的 能 量 ， 可 以 进行 故障 判断 。 由 于 受到 测量 和 记录 过 程 的 限制 ， 所 以 得 到 的 信息 非常 繁 
杂 ， 需 要 专家 对 这 些 信 息 进行 综合 研究 后 做 出 诊断 。 尽 管 手动 制作 的 专家 系统 已 经 在 一 些 
方面 得 到 发 展 ， 由 于 得 到 诊断 方案 的 过 程 将 在 不 同 的 机 械 装 置 上 重复 很 多 遍 ， 所 以 也 在 控 
索 运 用 机 器 学 习 方案 。 

600 多 个 故障 中 的 每 一 个 故障 都 是 由 一 组 测量 和 专家 的 诊断 结果 组 成 ， 这 些 诊 断 再 现 
了 在 这 一 领域 20 年 的 经 验 。 其 中 有 一 半 由 于 不 同 的 原因 不 能 令 人 满意 ， 而 不 得 不 丢弃 ， 
剩 下 的 将 作为 训练 例子 投入 使 用 。 这 个 诊断 系统 的 目的 不 是 为 了 考查 是 否 存在 故障 ， 而 是 
为 了 判断 是 什么 故障 。 因 此 ， 在 训练 集 里 没有 必要 包括 没有 故障 的 事例 。 由 测量 得 到 的 属 
性 值 是 属于 较 低 层 的 数据 ， 必 须 使 用 一 些 中 间 的 处 理 方法 将 它们 增 大 。 中 间 处 理 方法 是 一 
些 基 本 属性 的 公式 ， 这 些 公式 是 专家 结合 一 些 因 果 关 系 的 领域 知识 所 制定 的 。 用 一 个 归纳 
法 公式 对 衍生 出 的 属性 进行 运算 ， 从 而 产生 一 组 诊断 规则 。 开 始 时 ， 专 家 并 不 满意 这 些 规 
则 ， 因 为 他 不 能 将 这 些 规则 与 他 的 知识 和 经 验 相 联系 。 对 于 他 来 说 ， 统 计 的 证 据 本 身 并 不 
是 一 个 充分 的 解释 。 为 了 让 建立 的 规则 令 人 满意 ， 必 须 使 用 更 多 的 背景 知识 。 尽 管 产 生 的 
规则 将 会 非常 复杂 ， 但 是 专家 喜欢 它 ， 因 为 他 能 够 根据 自己 的 机 械 知识 对 它们 进行 评估 。 
专家 对 一 些 由 第 三 方 产生 的 规则 和 他 自己 使 用 的 规则 达成 一 致 感到 高 兴 ， 而 且 愿意 从 其 他 
规则 中 获得 新 的 见解 。 

从 性 能 测试 的 结果 可 以 看 出 ， 机 器 学 到 的 规则 优 于 由 专家 根据 以 往 的 经 验 手动 编制 的 
规则 ， 这 一 结果 在 化 学 工厂 使 用 的 效果 中 得 到 进一步 的 肯定 。 有 趣 的 是 ， 这 个 系统 的 应 用 
不 是 因为 它 有 良好 的 性 能 表现 ， 而 是 因为 由 机 器 学 到 的 规则 已 经 得 到 这 个 领域 专家 的 
肯定 。 


1.3.6 市 场 和 销售 


有 些 最 具有 活力 的 数据 挖掘 的 应 用 是 在 市 场 和 销售 领域 。 在 这 个 领域 中 ， 各 个 公司 都 
掌握 着 大 量 的 精确 数据 记录 ， 这 些 数据 仅 在 最 近 才 被 认为 拥有 巨大 的 潜在 价值 。 在 这 些 应 
用 中 ， 预 测 是 主要 兴趣 所 在 ， 用 于 做 出 决策 的 结构 常常 是 完全 不 相干 的 。 

我 们 已 经 提 到 有 关 客 户 忠诚 度 播 摆 问 题 ， 以 及 找 出 那些 可 能 会 背叛 的 客户 存在 的 挑 
战 ， 因 为 这 部 分 客户 可 以 通过 给 予 特殊 对 待 而 争取 他 们 回来 。 银 行 是 数据 控 掘 技术 较 早 的 
使 用 者 ， 因 为 数据 挖掘 的 使 用 在 信用 度 审核 方面 取得 了 成 功 。 如 今 为 减少 储户 的 流失 ， 数 
据 挖 掘 被 用 来 考查 个 人 银行 业务 模型 。 这 个 模型 将 预示 出 一 个 银行 业务 的 变化 ， 甚 至 是 生 
活 的 变化 ， 如 移居 到 另 一 个 城市 ， 这 些 变化 可 能 会 导致 选择 一 个 不 同 的 银行 。 或 者 ， 一 个 
通过 电话 管理 的 银行 业务 的 客户 群 ， 当 连续 几 小 时 的 电话 接 通 率 较 低 时 ， 这 部 分 客户 的 流 
失 率 将 高 于 平均 值 。 数 据 挖掘 能 为 新 推出 的 服务 找 出 适合 的 群体 ， 例 如 一 个 除了 在 11 12 
月 以 外 很 少 从 他 们 的 信用 卡 上 提出 现金 的 有 利 可 图 的 、 可 靠 的 客户 群 ， 他 们 愿意 为 度假 期 





而 支付 高 昂 的 银行 利息 。 

在 移动 通信 和 领域， 移动 电话 公司 为 了 留 住 他 们 的 基本 用 户 群 ， 需 要 找 出 可 能 从 新 推出 
的 服务 中 获 利 的 行为 模型 ， 然 后 向 这 个 客户 群 宣传 新 服务 。 为 挽留 所 有 用 户 而 特别 提供 一 
些 激励 措施 的 代价 是 昂贵 的 。 一 个 成 功 的 数据 挖掘 能 够 准确 地 、 有 针对 性 地 对 有 可 能 产生 
最 大 利润 的 用 户 群 提供 特殊 服务 。 

购物 篮 分 析 (Market basket analysis) 是 在 交易 过 程 中 使 用 关联 技术 ， 特 别 是 从 超市 收 
银 数据 中 ， 找 出 那些 以 成 组 的 形式 同时 出 现 的 商品 。 对 于 许多 零售 商 来 说 ， 这 是 唯一 能 够 
用 于 数据 挖掘 的 销售 信息 来 源 。 例 如 ， 对 收银 数据 的 自动 分 析 将 揭示 一 个 事实 : 那些 买 啤 
酒 的 客户 同时 也 买 慕 片 。 这 是 一 个 对 超市 管理 人 员 来 说 也 许 具有 重要 意义 的 发 现 ( 尽管 这 
是 个 很 明显 的 并 不 需要 数据 挖掘 技术 来 揭示 的 发 现 ) 。 或 者 也 可 能 找 另 一 个 事实 ， 有 些 顾 
客 通常 在 星期 四 买 尿 片 的 同时 也 买 啤酒 。 这 个 起 初 令 人 吃惊 的 结论 ， 如 果 我 们 再 仔细 想 
想 ， 考 虑 到 年 轻 父 母 为 了 在 家 度 周 末 而 储存 ， 就 变 得 可 以 理解 了 。 这 些 信息 能 够 用 于 多 种 
目的 : 规划 货架 ; 仅 对 一 组 会 同时 被 购买 的 商品 中 的 一 种 商品 进行 打折 ; 当 一 个 产品 单独 
销售 时 ， 提 供与 这 个 产品 相 匹配 产品 的 赠 券 等 。 

认 知 顾客 个 人 的 购买 历史 记录 的 能 力 可 以 创造 出 巨大 的 附加 价值 。 事 实 上 ， 对 这 个 价 
值 的 追求 造成 折扣 卡 或 “忠诚 ” 卡 的 繁盛 ， 让 零售 商 无 论 何 时 都 能 从 购买 行为 中 鉴别 出 特 
殊 的 客户 。 从 个 人 数据 中 获得 的 结论 将 比 折扣 的 现金 价值 更 高 。 对 个 别 顾客 的 鉴别 不 但 使 
得 对 其 历史 购买 模式 进行 分 析 ， 而 且 还 能 精确 地 针对 潜在 的 用 户 发 送 有 关 特 殊 服 务 的 邮 
TF, 或 者 在 购物 结算 时 实时 打印 个 人 礼券 。 超 市 想 让 你 感觉 到 尽管 世界 的 物价 在 无 情 地 上 
Bk, 但 是 超市 不 会 为 你 过 多 地 涨 价 ， 这 是 因为 购物 礼券 的 特价 商品 会 吸引 你 转 积 一 些 你 正 
常情 况 下 不 会 购买 的 商品 。 

直销 是 另 一 个 数据 挖掘 广泛 应 用 的 领域 。 促 销 行为 的 代价 是 昂贵 的 ， 它 拥有 低 的 反馈 
率 , 一 旦 得 到 反馈 却 能 产生 高 额 利润 。 任 何 能 使 一 个 促销 邮递 广告 更 加 紧密 集中 ， 并 达到 
给 出 尽量 少 的 样品 ， 但 是 获得 相同 或 者 几乎 相同 的 反馈 信息 的 技术 都 是 有 价值 的 。 有 些 有 
商业 价值 的 数据 库 包含 着 基于 邮政 编码 的 人 口 统计 信息 ， 邮 政 编码 定义 了 邻里 关联 的 信 
息 ， 它 能 与 现 有 的 客户 信息 相关 联 ， 从 中 找到 一 个 社会 经 济 模型 ， 进 而 预测 出 哪些 客户 将 
会 转换 成 真正 的 客户 。 这 个 模型 能 够 从 一 个 最 初 的 邮递 广告 反馈 信息 上 ， 预 测 出 有 可 能 的 
未 来 客户 。 反 馈 信 息 是 人 们 寄 回 的 反馈 卡 ， 或 者 拨 800 电话 寻求 更 多 信息 。 快 递 公司 比 大 
型 购物 中 心 的 零售 商 更 有 优势 掌握 单个 客户 的 购买 历史 ， 使 用 数据 挖掘 能 够 从 中 找 出 那些 
有 可 能 响应 特殊 服务 的 客户 。 有 针对 性 的 竞争 比 争夺 大 市 场 的 竞争 更 经 济 ， 因 为 公司 仅 对 
有 可 能 需要 产品 的 客户 提供 服务 ， 为 此 公司 将 节约 大 量 资金 。 而 机 器 学 习 能 够 帮助 人 们 找 
出 针对 性 的 目标 。 


1. 3.7 其 他 应 用 


现在 有 不 胜 枚 举 的 有 关机 器 学 习 的 其 他 应 用 。 这 里 我 们 将 简单 地 介绍 一 些 应 用 领域 来 
说 明 机 器 学 习 运用 领域 的 广泛 性 。 

成 熟 的 生产 制造 过 程 通常 涉及 调整 控制 参数 。 分 离 原油 和 天 然 气 是 对 石油 进行 提炼 
的 一 个 必 不 可 少 的 过 程 ， 而 分 离 过 程 的 控制 是 一 个 比较 难 的 工作 。 英 国 石油 公司 使 用 机 
器 学 习 为 设置 参数 建立 规则 。 现 在 这 个 过 程 只 需要 10 分 钟 ， 而 以 往 同样 的 工作 ， 专 家 
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需要 花 一 天 多 的 时 间 完 成 。 西 屋 公司 (Westinghouse) 在 制造 核燃料 局 块 的 过 程 中 ,使 
用 机 器 学 习 建 立 规则 以 控制 生产 过 程 。 据 报道 因此 他 们 每 年 节约 超过 1000 万 美元 
(1984 年 ) 。 坐 落 在 田纳西 的 R. R. Donnelly 印刷 公司 ， 运 用 同样 的 理论 控制 轮转 四 版 印 
刷 过程 ， 降 低 了 由 人 为 因素 造成 的 不 当 参 数 设置 ， 人 为 错误 的 数量 也 由 每 年 超过 500 降 
低 到 不 足 30。 

在 客户 支持 和 服务 领域 ,我 们 已 经 讨论 过 贷款 审批 、 市 场 和 销售 应 用 。 男 一 个 例子 是 
当 一 个 客户 反映 电话 通信 故障 后 ， 电 话 公 司 必须 做 出 决定 派 哪 个 技师 解决 问题 。 贝 尔 大 西 
洋 公 司 (Bell Atlantic) 在 1991 年 开发 了 用 来 做 出 这 个 决策 的 专家 系统 已 经 在 1999 年 被 一 
组 由 机 器 学 习 得 到 的 规则 所 替代 ， 这 一 举措 降低 了 错误 决策 的 数量 ， 因 此 每 年 为 公司 节约 
1000 多 万 美元 。 

数据 挖掘 也 用 于 许多 科学 领域 。 在 生物 学 领域 ， 使 用 机 器 学 习 能 帮助 人 们 从 每 一 个 新 
的 染色 体 中 识别 出 数 千 个 基因 。 在 生物 医学 领域 ， 使 用 机 器 学 习 技 术 不 但 能 够 从 药物 的 化 
学 属性 ， 而 且 也 能 从 它们 的 3 维 结构 上 分 析 预 测 出 药物 的 作用 。 加 速 了 药物 开发 的 进程 ， 
同时 降低 了 开发 成 本 。 在 天 文学 领域 ， 机 器 学 习 技术 已 经 用 于 开发 一 个 完全 自动 的 分 类 系 
统 ， 用 于 分 析 那 些 太 小 ， 不 容易 被 观察 到 的 天 体 。 在 化 学 领域 ， 机 器 学 习 用 来 从 核磁 共振 
影像 中 预测 出 特定 的 有 机 复合 物 的 结构 。 在 所 有 这 些 应 用 中 ， 机 器 学 习 技 术 所 达到 的 性 能 
级 别 ( 或 者 应 该 说 是 技能 ?) 都 能 抗衡 或 超过 人 类 专家 。 

一 个 需要 连续 监控 的 工作 ， 对 人 类 来 说 是 一 个 耗 时 而 且 异 常 枯燥 的 工作 ， 在 这 种 情况 
下 ， 自 动 化 技术 尤其 受到 欢迎 。 前 面 所 提 到 的 有 关 石 油 泄漏 的 监控 是 机 器 学 习 在 生态 方面 
的 应 用 。 其 他 的 一 些 应 用 相对 来 说 比较 间接 。 例 如 ， 机 器 学 习 正 用 来 根据 电视 观众 以 往 的 
选择 和 节目 预告 来 预测 观众 对 电视 频道 的 偏好 。 而 在 其 他 方面 的 一 些 应 用 甚至 能 挽救 生 
命 。 危 重病 人 需要 进行 长 时 间 的 监控 来 觉察 不 能 用 生理 节律 和 用 药 来 解释 的 病人 指标 变化 
情况 等 ， 目 的 是 在 适当 的 时 候 发 出 警报 。 最 后 ， 一 个 依赖 于 易 受 攻击 的 计算 机 网 络 系统 的 
世界 ， 正 日 益 关 注 网 络 安全 性 问题 ， 使 用 机 器 学 习 能 够 从 识别 非 正 常 操作 模式 的 过 程 中 探 
测 出 非法 入 侵 。 


1.4 机 器 学 习 和 统计 学 


机 器 学 习 和 统计 学 的 区 别 是 什么 ?玩世不恭 者 挖苦 地 把 它 看 成 是 揭示 商业 利益 (和 骗 
局 ) ， 将 数据 挖掘 等 同 于 统计 学 加 市 场 。 实 际 上 ， 试 图 在 数据 挖掘 和 统计 学 之 间 寻 求 一 个 
分 界线 是 不 现实 的 ， 因 为 它 是 一 个 连续 的 、 多 维 的 数据 分 析 技 术 。 其 中 有 些 技术 源 于 标准 
的 统计 课程 ， 另 一 些 更 紧密 地 与 源 于 计算 机 科学 领域 的 机 器 学 习 相 关联 。 从 历史 上 来 说 ， 
两 方面 存在 一 些 不 同 的 惯例 。 如 果 一 定 要 指出 一 个 特别 不 同 之 处 ， 就 是 统计 学 更 侧重 于 测 
试 假说 ， 而 机 器 学 习 更 注重 于 规划 出 一 个 泛 化 的 过 程 ， 作 为 一 个 在 全 部 可 能 的 假说 中 的 搜 
索 。 但 是 这 个 解释 过 于 简单 化 ， 统 计 学 远 不 只 是 测试 假说 ， 而 且 许多 机 器 学 习 技术 也 并 没 
有 包含 任何 搜索 。 

过 去 ， 一 些 非 常 相似 的 方案 已 经 在 机 器 学 习 和 统计 学 上 得 到 并 行 发 展 。 其 中 一 个 是 决策 
树 归 纳 法 。 四 位 统计 学 家 (Breiman 等 ，1984) 在 20 世纪 80 年 代 中 期 出 版 一 本 书 《Classifi- 
cation and regression trees》， 同 时 卓越 的 机 器 学 习 研 究 学 家 J. Ross Quinlan ， 在 20 世纪 70 年 代 
和 80 年 代 初 ， 为 从 样本 中 推导 出 分 类 树 开 发 了 一 个 系统 。 这 两 个 独立 的 项 目 为 从 实例 中 创 
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建 决策 树 产 生 了 非常 相似 的 方案 , 但 是 研究 人 员 直 到 很 晚 才 意识 到 相互 的 成 就 。 


第 二 个 相似 的 方案 产生 于 用 于 分 类 的 最 近邻 方法 中 。 机 器 学 习 研 究 人 员 对 一 些 标准 的 
统计 技术 进行 了 广泛 的 改进 ， 使 得 在 分 类 的 性 能 得 到 改进 的 同时 ， 提 高 了 计算 过 程 的 效 


率 。 我 们 将 在 第 4 章 研 究 决策 树 和 最 近邻 方法 。 


如 今 ， 机 器 学 习 和 统计 学 已 经 结合 起 来 。 在 本 书 中 ,我 们 将 要 考察 的 一 些 技术 在 很 大 
程度 上 融入 统计 的 思想 。 从 一 开始 ， 创 建 和 提炼 原始 样本 集 时 ， 在 数据 可 视 化 、 属 性 的 选 
择 、 去 除 异常 等 方面 运用 标准 的 统计 方法 。 大 部 分 学 习 算法 在 创建 规则 或 决策 树 以 及 修正 
“过 度 拟 合 ”的 模型 时 ， 使 用 统计 学 测试 ， 过 度 拟 合 就 是 在 产生 模型 过 程 中 过 分 依赖 于 一 
些 特 定 样本 的 细节 (我 们 已 经 在 图 1-3 劳资 协商 问题 的 两 个 决策 树 中 看 到 过 一 个 过 度 拟 合 
的 例子 ) 。 统 计 测试 用 来 验证 机 器 学 习 的 模型 和 评估 机 器 学 习 算 法 。 在 研究 数据 挖掘 实用 


技术 时 ， 我 们 将 学 到 大 量 的 统计 学 知识 。 
1.5 将 泛 化 看 做 搜索 





学 习 问 题 可 视 化 的 方法 之 一 是 〈 将 机 器 学 习 与 统计 方法 进行 区 分 的 方式 ) 设想 一 
个 在 可 能 的 概念 描述 空间 中 与 数据 相 匹 配 的 搜索 。 尽 管 将 泛 化 看 做 搜索 的 想法 对 思考 
有 关机 器 学 习 来 说 是 一 个 强大 的 概念 工具 。 但 是 它 并 不 是 理解 本 书 中 所 描述 的 特殊 方 
案 的 必要 部 分 。 所 以 ， 本 节 的 内 容 加 上 了 边框 ， 意 味 着 选读 。 

为 了 明确 起 见 ， 假 设 概念 描述 (concept description) 是 学 习 的 结果 ， 由 一 组 规则 
表示 ， 如 1.2 节 中 有 关 天 气 问 题 的 规则 (尽管 其 他 概念 描述 语言 也 能 同样 做 到 ) o BE 
我 们 要 列 出 所 有 可 能 的 规则 集 ， 然 后 从 中 寻找 一 些 能 够 满足 给 定 样 本 集 的 规则 。 一 个 
大 工程 ? 是 的 。 不 可 能 完成 ? 乍 一 看 似乎 如 此 ， 因 为 对 可 能 产生 的 规则 数量 没有 限制 。 
但 是 事实 上 可 能 的 规则 集 的 数量 是 有 限 的 。 首 先 要 注意 ， 每 一 个 单独 的 规则 不 能 大 于 
一 个 固定 的 最 大 值 ， 每 一 个 属性 至 多 有 一 个 条 件 : 在 表 1-2 中 的 天 气 数 据 总 共 包 含 了 4 
个 条 件 。 因 为 可 能 的 规则 的 数量 是 有 限 的 ， 所 以 可 能 的 规则 集 的 数量 尽管 非常 大 ， 但 
也 是 有 限 的 。 然 而 ， 我 们 对 那些 拥有 大 量规 则 的 规则 集 不 感 兴 趣 。 实 际 上 ， 我 们 对 那 
些 包含 的 规则 数量 大 于 样本 数量 的 规则 集 不 感 兴趣 ， 因 为 很 难 想 象 每 一 个 样本 有 一 个 
以 上 的 规则 。 因 此 ， 如 果 我 们 仅 考 虑 那些 小 于 样本 数量 的 规则 集 ， 那 么 问题 将 得 到 极 
大 的 简化 ， 尽 管 数量 依然 很 大 。 

对 于 表 1-3 第 2 版 本 的 天 气 问 题 ， 似 乎 存在 一 个 严重 的 危机 ， 因 为 规则 中 包含 了 
数值 ， 所 以 可 能 的 概念 描述 的 数量 将 趋 于 无 限 。 如 果 它 们 是 实数 ， 不 可 能 将 它们 一 一 
枚 举 出 来 ， 甚 至 理论 上 也 不 可 行 。 但 是 如 果 用 数值 形式 的 分 割 点 来 表示 样本 中 出 现 的 
数字 ， 那 么 这 些 问题 将 会 迎刃而解 。 例 如 ， 在 表 1-3 中 的 温度 属性 ， 它 所 包含 的 值 是 : 
64, 65, 68, 69, 70, 71, 72, 75, 80, 81, 83 和 85， 共 12 个 不 同 的 值 。 存 在 13 个 
可 能 的 区 间 ， 可 以 为 涉及 温度 的 规则 设置 分 割 点 。 所 以 这 个 问题 将 不 再 是 无 限 的 。 

泛 化 的 过 程 可 以 认为 是 在 一 个 庞大 的 ， 但 有 限 的 搜索 空间 中 进行 搜索 。 原 则 上 ， 可 
以 枚 举 所 有 的 描述 ， 从 中 剔除 一 些 不 符合 样本 的 描述 来 解决 问题 。 一 个 肯定 的 样本 会 去 
除 所 有 不 匹配 的 描述 ;而 一 个 否定 的 样本 则 去 除 所 有 匹配 的 描述 。 每 个 样本 剩余 的 描述 
集 缩小 〈 或 与 原来 相同 ) 。 如 果 只 剩 下 一 个 描述 ， 那 么 它 就 是 目标 描述 〈 目标 概念 ) 。 
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如 果 剩 下 多 个 描述 ， 仍 然 可 以 用 来 对 未 知 的 事物 进行 分 类 。 如 果 未 知 的 事物 与 所 
有 剩余 的 描述 相 匹 配 ， 就 应 该 把 它 分 到 所 匹配 的 目标 。 如 果 不 能 和 其 中 任何 一 个 相 匹 
配 ， 就 把 它 分 到 目标 概念 以 外 。 但 是 ， 如 果 仅 和 其 中 一 部 分 相 匹 配 ， 就 会 出 现 模 糊 。 
在 这 种 情况 下 ， 如 果 未 知事 物 的 类 别 已 经 标 出 ， 那 么 会 导致 剩余 描述 集 缩小 ， 因 为 那 
些 错 分 事物 的 规则 集会 被 拒绝 。 


1.5.1 枚 举 概念 空间 


搜索 被 认为 是 观察 学 习 过 程 的 一 个 好 方法 。 然 而 ， 搜 索 空 间 是 极 大 的 ， 尽 管 是 有 
限 的 。 一 般 来 说 ， 枚 举 出 所 有 可 能 的 描述 ， 并 从 中 寻找 匹配 的 描述 是 极 不 实际 的 。 在 
天 气 问 题 中 ， 对 于 每 一 个 规则 ， 存 在 4 x4 x3 x3 x2 =288 个 可 能 性 。 对 于 outlook 属性 
存在 4 个 可 能 性 : sunny, overcast, rainy, 或 者 有 可 能 根本 没有 参与 规则 的 制定 。 同 
FÉ, temperature 存在 4 个 可 能 性 ，windy 和 humidity 分 别 有 3 个 ; 类 别 有 2 个。 如果 我 
们 把 规则 集 里 的 规则 数量 限制 在 14 个 以 内 (训练 集 里 有 14 个 样本 ) ， 那 么 就 有 可 能 产 
生 2.7 x10” 个 不 同 的 规则 集 。 那 就 需要 枚 举 出 很 多 描述 ， 特 别 对 这 样 一 个 明显 很 琐碎 
的 问题 。 

尽管 有 一 些 方法 可 以 使 枚 举 的 过 程 更 可 行 ， 但 仍然 存在 一 个 严峻 的 问题 : 实际 上 ， 
整个 处 理 过 程 只 涵盖 唯一 一 个 可 接受 的 描述 是 很 少见 的 。 所 以 会 产生 两 种 情况 ， 样 本 
在 处 理 过 后 ， 仍 然 存 在 大 量 的 描述 ; 或 者 所 有 的 描述 都 被 去 除 。 第 一 种 情况 的 出 现 是 
由 于 没有 充分 理解 样本 ， 所 以 除 “ 正 确 的 ”一 个 以 外 ， 其 他 描述 没有 被 去 除 。 实 际 上 ， 
人 们 通常 想 要 找到 一 个 “最 好 的 ”描述 ， 所 以 有 必要 运用 一 些 其 他 标准 从 剩余 的 描述 
集中 选 出 最 好 的 一 个 。 第 二 种 情况 的 出 现 是 因为 描述 语言 表达 不 充分 ， 不 能 把 握 住 真 
正 的 概念 ， 或 者 是 因为 样本 中 存在 噪声 。 如 果 输 入 的 样本 由 于 一 些 属 性 值 存在 错误 而 
导致 一 个 “错误 的 ”分 类 ,或 者 样本 的 类 被 标 错 ， 那 么 有 可 能 把 正确 的 描述 从 空间 中 
去 除 。 所 以 剩 下 的 描述 集 就 为 空 。 如 果实 例 中 存在 噪声 ， 那 么 这 种 情况 非常 可 能 发 生 ， 
而 且 必 然 会 发 生 ， 除 非 是 人 造 的 数据 。 

另 一 种 对 作为 搜索 的 泛 化 进行 观察 方法 ， 不 是 将 它 设想 成 一 个 枚 举 出 所 有 描述 并 
从 中 剔除 所 有 不 适用 描述 的 过 程 ， 而 是 作为 一 种 描述 空间 的 疏 山 行为 ， 根 据 一 些 预先 
制定 的 匹配 标准 ， 寻 找 最 匹配 实例 集 的 描述 。 这 是 一 种 最 实际 的 机 器 学 习 方 法 。 然 而 ， 
除了 一 些 很 琐碎 的 事例 外 ， 在 整个 空间 彻底 地 搜索 是 完全 不 可 行 的 。 最 实际 的 算法 应 
该 包含 启发 式 搜 索 ， 并 且 不 能 保证 找到 最 优 的 描述 。 


1.5.2 偏差 


把 泛 化 看 成 是 在 一 个 所 有 可 能 的 概念 空间 的 搜索 ， 就 可 以 清楚 地 指出 在 机 器 学 习 
系统 里 最 重要 的 决策 是 : 

e 概念 描述 语言 。 

。 在 空间 中 搜索 的 次 序 。 

e 对 于 特定 训练 数据 避免 过 度 拟 合 的 方法 。 

当 讨 论 搜 索 的 偏差 时 ， 通常 提 到 3 个 属性 : 语言 偏差 (language bias) 、 搜 索 偏差 

















(search bias) 和 避免 过 度 拟 合 偏差 (overfitting- avoidance bias) 。 在 选择 一 种 表达 概念 
的 语言 时 、 在 为 一 个 可 以 接受 的 描述 搜索 一 个 特殊 途径 时 、 在 需要 对 一 个 复杂 的 概念 
进行 简化 时 ， 都 会 使 学 习 方案 产生 偏差 。 

语言 偏差 

对 于 语言 偏差 来 说 ， 最 重要 的 问题 是 概念 描述 语言 是 否 具有 普遍 性 ,或 者 它 是 否 
在 能 够 被 学 到 的 概念 上 加 约束 条 件 。 如 果 考 虑 一 个 包含 所 有 可 能 性 的 样本 集 ， 那 么 概 
念 就 是 将 这 个 集合 划分 为 多 个 子 集 的 分 界线 。 在 天 气 例子 中 ， 如 果 要 枚 举 所 有 可 能 的 
天 气 条 件 ， 那 么 概念 玩 (play) 就 是 一 个 所 有 可 能 的 天 气 条 件 的 子 集 。 一 个 “普遍 性 
的 ”语言 应 该 能 够 表示 每 一 个 可 能 的 样本 子 集 。 实 际 上 ， 可 能 的 样本 集 普遍 很 大 ， 从 
这 方面 说 ， 这 只 是 一 个 理论 上 的 设想 ， 而 不 能 用 于 实际 。 

如 果 概 念 描 广 语言 允许 包括 逻辑 或 ， 也 就 是 析 取 (disjunction) ， 那 么 任何 一 个 子 
集 都 能 表示 。 如 果 描 述 语言 是 基于 规则 的 ， 那 使 用 分 开 的 规则 就 能 够 达到 分 离 的 目的 。 
例如 ,一 个 可 能 的 概念 描述 仅仅 是 枚 举 样本 : 


If outlook = overcast and temperature = hot and humidity = high 
and windy = false then play = yes 


outlook = rainy and temperature = mild and humidity = high 


m 


H 
rh 


and windy - false then play - yes 


If outlook - rainy and temperature - cool and humidity - normal 
and windy = false then play = yes 
If outlook - overcast and temperature - cool and humidity - normal 


and windy - true then play - yes 


If none of the above then play - no 

这 不 是 一 个 具有 启发 性 的 概念 描述 : 只 是 简单 地 记录 了 已 经 观察 到 的 一 些 肯定 的 
样本 ， 并 且 假 设 剩 下 的 都 是 否定 的 样本 。 每 一 个 肯定 的 样本 被 赋予 一 个 自身 的 规则 ， 
概念 是 规则 以 逻辑 或 的 形式 构成 的 。 或 者 ， 可 以 设想 为 每 一 个 否定 的 样本 制定 一 些 单 
独 的 规则 ， 同 样 也 会 得 到 无 意义 的 概念 。 在 这 两 种 方法 里 ， 概 念 描述 并 没有 表示 出 任 
何 泛 化 ， 只 是 简单 地 记录 原始 数据 。 

男 一 方面 ， 如 果 不 允 许 使 用 析 取 ， 那么 有 些 可 能 的 概念 (样本 集 ) 将 根本 不 能 被 
表达 出 来 。 从 这 个 意义 上 说 ， 一 个 机 器 学 习 方案 不 可 能 轻易 达到 一 个 好 的 性 能 。 

另 一 种 语言 偏差 是 从 特殊 领域 所 使 用 的 知识 产生 的 。 例 如 ， 它 或 许 是 一 些 属性 值 
的 组 合 ， 而 这 些 组 合 可 能 永远 不 会 发 生 。 当 一 个 属性 隐 含 另 一 个 属性 时 ， 这 种 情况 将 
会 发 生 。 在 1.2 节 ， 在 为 大 豆 问 题 寻 找 规则 时 ， 我们 曾经 看 到 过 一 个 相关 的 例子 。 当 
BR, 考虑 包含 匈 余 或 不 可 能 的 属性 值 组 合 的 概念 是 没有 意义 的 。 领 域 知识 能 够 用 于 前 
减 搜索 空间 。 知 识 就 是 力量 ， 即 使 是 一 点 知识 也 能 起 很 大 作用 ， 甚 至 一 个 小 小 的 线索 
都 能 极 大 地 减少 搜索 空间 。 

搜索 偏差 

在 实际 的 数据 挖掘 问题 中 ， 存 在 一 些 可 选 的 概念 描述 ， 它 们 都 与 数据 相 匹 配 。 问 
题 是 要 根据 某 些 标准 (通常 是 简单 的 标准 ) 找 出 “最 好 的 ”一 个 。 我 们 使 用 统计 学 的 
术语 拟 合 (人 fit) ， 意 味 着 寻找 一 个 与 数据 合理 拟 合 的 最 好 的 描述 。 但 是 ， 要 在 整个 空间 
进行 搜索 并 保证 所 找到 的 描述 是 最 好 的 一 个 ， 通 常 从 计算 上 是 不 可 行 的 。 所 以 搜索 过 
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程 是 启发 式 的 ， 并 且 不 能 保证 最 终结 果 是 最 优 的 。 这 为 偏差 的 产生 创造 了 空间 不 同 
的 搜索 启发 方式 以 不 同 的 方式 在 搜索 中 产生 偏差 。 

例如 ， 一 个 学 习 方 案 或 许 为 规 则 的 产生 采纳 一 个 “贪心 ”( greedy) 搜索 ， 通 过 尝 
试 在 每 一 个 阶段 找 出 最 好 的 规则 ， 然 后 把 它 加 入 规则 集 。 然 而 ， 最 好 的 一 对 规则 并 不 
是 单独 找 出 的 两 个 最 好 规则 的 关 加 。 或 者 当 构造 一 个 决策 树 时 ， 最 先 做 出 的 基于 一 个 
特定 属性 的 分 割 ， 或 许 在 考虑 如 何在 这 个 结 点 下 发 展 树 时 会 被 认为 是 错误 的 决定 。 使 
用 束 搜索 (beam search) 解决 这 些 问题 ， 方 法 是 不 产生 一 个 不 能 改变 的 约束 方案 ， 而 
是 并 行 地 寻求 一 个 由 多 个 动态 替换 方案 组 成 的 集合 ， 赫 换 方案 的 个 数 就 是 束 宽 (beam 
width) 。 这 将 使 学 习 算法 变 得 非常 复杂 ， 但 是 将 有 可 能 避免 与 贪心 搜索 相关 联 的 短视 。 
当然 ， 如 果 束 宽 不 够 大 ， 短 视 有 可 能 发 生 。 还 有 一些 更 复杂 的 搜索 策略 能 够 帮助 解决 
这 个 问题 。 

一 个 更 通用 的 和 更 高 层次 的 搜索 偏差 需要 调查 搜索 是 由 一 般 性 的 描述 开始 ， 再 对 
它 进行 提炼 ， 还 是 由 一 个 特殊 的 样本 出 发 ， 然 后 对 它 进行 推广 。 前 者 称 为 从 一 般 到 具 
体 的 搜索 偏差 ， 而 后 者 是 从 具体 到 一 般 的 搜索 偏差 。 许 多 学 习 算法 采用 前 一 种 策略 ， 
由 一 个 空 的 决策 树 ， 或 者 一 个 非常 一 般 的 规则 开始 ， 对 它 进行 具体 化 处 理 ， 使 它 与 样 
本 拟 合 。 然 而 ， 从 另 一 个 方向 对 它 进行 研究 也 是 非常 可 行 的 。 基 于 实例 的 方法 从 一 个 
特定 的 样本 出 发 ， 观 察 它 是 如 何 被 泛 化 后 覆盖 同一 个 类 里 的 相 邻 的 样本 。 

避免 过 度 拟 合 偏差 

避免 过 度 拟 合 偏差 是 另 一 种 形式 的 搜索 偏差 。 但 是 ， 因 为 它 涉及 一 个 比较 特殊 的 
问题 ， 所 以 我 们 将 它 加 以 区 别 对 待 。 前 面 已 经 讨论 过 析 取 问题 ， 如 果 人 允许 包含 析 取 ， 
那么 在 总 结 数 据 的 时 候 就 会 存在 没有 用 的 概念 描述 ， 然 而 如 果 禁 止 使 用 析 取 ， 那 么 有 
些 概念 将 无 法 得 到 。 通 常 解决 这 个 问题 的 方法 是 从 一 个 最 简单 的 概念 描述 出 发 ， 逐 浙 
将 它 复杂 化 : 由 简 到 繁 的 顺序 。 这 是 为 了 迎合 简单 的 概念 描述 ， 从 而 使 搜索 产生 偏差。 

从 由 简 到 繁 的 搜索 开始 ， 在 找到 足够 复杂 的 概念 描述 时 停止 ， 这 是 一 个 避免 过 度 
拟 合 的 好 方法 。 有 些 时 候 称 为 正 向 剪 枝 〈forward pruning) SEE (prepruning), ， 因 
为 有 些 描述 将 在 变 得 复杂 以 前 就 被 剪 枝 。 采 用 反 向 剪 枝 (backward pruning) PE H 
Ak (post-pruning) 也 是 可 行 的。 首先 ， 我 们 找 出 一 个 与 数据 拟 合 很 好 的 描述 ， 然 后 将 
它 剪 枝 成 一 个 简单 的 也 与 数据 拟 合 的 描述 。 看 上 去 这 是 多 余 的 一 步 ， 其 实 不 然 。 通 党 
为 找 出 一 个 简单 的 理论 ， 首 先 需 要 找到 一 个 复杂 的 ， 然 后 对 它 进行 简化 。 正 向 剪 枝 和 
反 向 剪 枝 都 可 避免 过 度 拟 合 偏差 。 

总 之 ， 作 为 搜索 的 泛 化 是 思考 有 关 学 习 问 题 的 一 个 好 方法 ， 而 实际 操作 过 程 中 ， 
偏差 是 唯一 使 它 可 行 的 方法 。 不 同 的 学 习 算法 对 应 不 同 的 概念 描述 空间 ， 并 用 不 同 的 
偏差 来 搜索 。 有 趣 的 是 : 不 同 的 描述 语言 和 偏差 在 解决 某 些 问 题 上 表现 突出 ， 而 在 另 
一 些 问 题 上 却 差强人意 。 正 如 每 一 个 老师 都 知道 的 ， 绝 对 好 的 学 习 方 法 是 不 存在 的 。 





1.6 ”数据 控 气 和 道德 


数据 挖掘 中 的 数据 的 使 用 ， 特 别 是 有 关 人 的 数据 ， 隐 含 着 严肃 的 道德 问题 。 数 据 控 掘 


技术 的 运用 者 必须 意识 到 围绕 在 特殊 应 用 上 的 道德 问题 ， 从 而 负责 地 使 用 它们 。 
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当 数 据 挖掘 对 象 是 人 时 ， 数 据 挖掘 频繁 地 用 于 区 别 待遇 : 谁 得 到 贷款 ， 谁 得 到 特殊 待 
遇 ， 等 等 。 某 些 形式 的 区 别 对 待 : 如 种 族 、 性 别 、 宗 教 等 ， 不 仅 是 不 道德 的 ， 而 且 是 非法 
的 。 然 而 ， 情 况 是 复杂 的 : 每 一 件 事 取决 于 应 用 。 在 医疗 诊断 中 使 用 性 别 和 种 族 的 信息 当 
然 是 道德 的 ， 但 是 在 研究 贷款 支付 行为 上 使 用 同样 信息 却 是 不 道德 的 。 甚 至 在 丢弃 一 些 敏 
感 信息 以 后 ,创建 的 模型 仍然 存在 歧视 的 风险 ， 因 为 模型 可 能 依赖 于 一 些 变量 ,这些 变 量 
是 种 族 或 性 别 特 征 的 蔡 代 品 。 例 如 ， 人 们 居住 的 某 些 地 区 总 是 和 一 些 特定 的 种 族 特征 相关 
联 ， 所 以 在 数据 挖掘 研究 中 使 用 邮政 编码 就 会 使 模型 中 存在 种 族 歧视 的 危险 ， 尽 管 有 些 种 
族 信 息 已 经 明确 地 从 数据 中 删除 。 


1.6.1 再 识别 


最 近 对 所 谓 再 识别 (reidentification) 技术 的 研究 让 我 们 对 匿名 化 数据 的 困难 有 了 清醒 
的 认识 。 例 如 可 以 通过 3 种 公开 的 个 人 记录 : 5 位 邮政 编码 、 出 生日 期 (包括 出 生年 份 ) 
以 及 性 别 ， 识 别 出 超 过 85% 的 美国 人 。 不 知道 邮政 编码 ? 没关系 ， 仅 根据 所 在 城市 、 出 生 
日 期 以 及 性 别 也 能 识别 出 超过 5096 的 美国 人 。 当 马萨诸塞 州 政府 公布 了 20 世纪 90 年 代 中 
期 所 有 州 雇员 的 医疗 记录 之 后 ， 某 政府 官员 向 公众 保证 所 公布 的 信息 是 匿名 的 ， 因 为 像 姓 
名 、 家 庭 地 址 、 社 会 保障 号 等 个 人 信息 都 已 被 删除 。 可 令 他 惊奇 的 是 ， 他 不 久 就 收 到 了 一 
封包 含 他 个 人 医疗 记录 的 邮件 (包括 诊断 结论 和 处 方 ) 。 

在 很 多 公司 满怀 善意 地 公布 那些 所 谓 的 匿名 数据 之 后 ， 人 们 才 发 现 有 相当 多 的 个 人 实 
际 上 很 容易 被 识别 。 仅 2006 年 一 年 ， 就 有 2000 万 条 用 户 搜索 记录 被 互联 网 公司 提供 给 研 
究 团体 。 

互联 网 公司 认为 通过 删除 所 有 的 用 户 个 人 信息 就 能 实现 匿名 。 但 很 快 《The New York 
Times》( 纽 约 时 报 ) 的 记者 就 证 明 可 以 将 号 码 为 417749 的 用 户 的 身份 信息 识别 出 来 (在 
公布 该 用 户 信息 之 前 已 取得 其 许可 ) 。 他 们 之 所 以 能 做 到 这 一 点 归 因 于 对 该 用 户 曾 使 用 过 
的 搜索 关键 词 的 分 析 ， 这 些 关键 词 涉及 她 对 自己 家 乡 庭院 设计 师 以 及 一 些 与 她 同姓 的 人 的 
搜索 ， 报 道 者 是 通过 公共 数据 库 里 的 信息 将 这 些 人 与 她 联系 起 来 的 。 

Bit Aja, Netflix (网 上 电影 租赁 公司 ) 公布 了 他 们 所 掌握 的 1 亿 条 电影 评分 记录 
(分 数 从 1 ~5) 。 令 他 们 吃惊 的 是 ， 他 们 发 现 从 数据 库 中 识别 出 用 户 并 掌握 用 户 过 去 评价 
的 每 一 部 电影 是 轻而易举 的 事情 。 举 个 例子 来 说 ， 如 果 知道 了 数据 库 中 用 户 对 6 部 电影 的 
大 概 评分 时 间 (误差 两 周 ) 信息 ， 就 能 识别 出 数据 库 中 99% 的 用 户 。 如 果 仅 知道 用 户 对 
两 部 电影 的 大 概 评分 时 间 (误差 3 K), KH 70% 的 用 户 能 被 识别 。 只 要 掌握 了 你 朋友 
(或 敌人 ) 的 一 点 点 信息 ， 你 就 能 掌握 他 们 在 Netflix 上 的 所 评价 过 的 所 有 电影 。 

但 如 果 彻底 将 所 有 可 能 的 具有 识别 能 力 的 信息 从 数据 库 中 删除 ， 我 们 将 得 不 到 任何 有 
用 信息 。 


1.6.2 使 用 个 人 信息 


在 人 们 决定 提供 个 人 信息 之 前 ， 需 要 知道 如 何 使 用 这 些 信息 ， 以 及 使 用 这 些 信息 的 目 
的 ， 采 取 什 么 措施 保障 这 些 信 息 的 机 密 性 和 完整 性 ， 提 供 或 者 保留 这 些 信 息 会 有 什么 样 的 
后 果 ， 以 及 他 们 应 该 拥有 哪些 纠正 信息 的 权利 。 无 论 何 时 在 收集 这 些 信 息 的 时 候 ， 相 关 人 
员 都 应 该 被 告知 这 些 事宜 。 不 仅 是 以 一 种 有 法 律 效应 的 打印 件 的 形式 ， 而 是 直接 用 朴实 的 
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， 使 他 们 能 够 理解 。 

数据 挖掘 技术 的 潜在 使 用 意味 着 ， 数 据 库 里 的 数据 在 使 用 方面 会 得 到 扩展 ， 也 许 会 远 
远 超出 在 开始 收集 数据 时 所 做 的 设想 。 这 将 产生 一 个 严肃 的 问题 ， 即 必须 明确 收集 数据 的 
条 件 ， 以 及 使 用 目的 。 数 据 的 拥有 者 能 把 所 收集 的 数据 用 于 收集 之 初 所 告知 的 使 用 目的 以 
外 的 其 他 方面 吗 ? 对 于 明确 收集 的 个 人 数据 当然 不 能 。 但 是 总 的 来 说 存在 一 些 复杂 的 
情况 。 

从 数据 挖掘 中 能 够 发 现 一 些 令 人 惊奇 的 东西 。 例 如 ， 据 报道 法 国 的 一 个 主要 消费 团体 
已 经 发 现 ， 拥 有 红色 汽车 的 人 往往 不 按期 支付 他 们 的 汽车 贷款 。 这 种 发 现 的 作用 是 什么 ? 
它 基 于 什么 信息 ?这 些 信息 是 在 什么 条 件 下 收集 的 ?以 什么 样 的 方式 来 有 道德 地 使 用 它 ? 
显然 ,保险 公司 在 业务 中 根据 一 些 模 式 来 区 别 对 待人 群 ， 如 年 轻 的 男性 支付 更 多 的 汽车 保 
险 费 ， 这 些 模式 并 没有 完全 基于 统计 学 的 关联 ， 它 们 也 没有 包含 有 关 这 个 世界 的 普通 常 
识 。 是 否 以 上 的 发 现 能 够 说 明 选 红色 车 的 人 的 一 些 情况 ,或 者 是 否 它 应 该 作为 不 相关 的 部 
分 被 抛弃 ， 这 些 都 需要 根据 人 们 对 世界 的 理解 而 不 是 纯粹 统计 的 标准 来 做 出 判断 。 

当 你 得 到 数据 的 时 候 ， 你 需要 问 谁 可 以 使 用 它 ， 收 集 它 的 目的 是 什么 ， 以 及 从 中 可 以 
合法 地 得 到 什么 结论 。 道 德 太 度 对 数据 挖掘 的 实践 者 提出 了 严峻 的 问题 。 在 处 理 数据 的 过 
程 中 ， 考 虑 使 用 一 些 社会 规范 是 非常 有 必要 的 。 有 些 标准 也 许 已 经 发 展 了 几 十 年 或 几 个 世 
纪 ， 但 是 信息 专家 也 许 并 不 清楚 。 例 如 ， 你 知道 在 图 书馆 的 社区 里 ， 读 者 的 隐私 被 理 所 当 
然 地 视 为 一 种 权利 应 该 得 到 保护 吗 ? 如 果 你 打 电 话 给 大 学 图 书馆 ， 询 问 某 某 书 被 谁 借 走 
了 ， 他 们 不 会 告诉 你 。 这 将 保护 学 生 免 受 由 于 届 服 一 个 发 奶 的 教授 所 施加 的 压力 而 交 出 
书 ， 而 这 本 书 是 他 为 最 近 提 交 的 一 份 奖学金 申请 所 急需 的 。 这 也 将 禁止 对 大 学 道德 委员 会 
主席 怀疑 的 娱乐 阅读 品位 进行 深入 探 询 。 创 建 数字 图 书馆 的 人 或 许 并 没有 意识 到 这 些 敏 感 
问题 ， 为 了 向 读者 推荐 新 书 ， 用 数据 挖掘 系统 分 析 数 据 和 比较 个 人 的 阅读 习惯 ， 甚 至 可 能 
会 把 结果 卖 给 出 版 商 。 


1.6.3 其 他 问题 


除了 数据 的 使 用 要 符合 社会 标准 外 ， 还 必须 使 用 符合 逻辑 的 和 科学 的 标准 来 分 析 从 中 
得 出 的 结论 。 如 果 你 确实 得 到 一 些 结论 (如 拥有 红色 车 的 人 的 信用 风险 比较 大 ) ， 你 需要 
对 这 些 结论 附加 说 明 ， 这 种 说 明 要 用 非 纯 粹 的 统计 报告 论据 来 支持 。 关 键 是 在 整个 过 程 
中 ， 数 据 挖掘 仅仅 是 一 个 工具 。 人 们 得 到 结果 后 ， 还 要 结合 其 他 知识 ， 然 后 才能 决定 采取 
什么 行为 。 

数据 挖掘 还 推出 了 其 他 问题 ， 当 考虑 在 数据 挖掘 中 使 用 哪些 社会 资源 时 ， 它 就 真正 成 
为 一 个 政治 问题 。 前 面 我 们 已 经 提 到 数据 挖掘 在 分 析 购 物 篮 上 的 应 用 ， 通 过 分 析 超 市 的 收 
银 记 录 ， 润 察 人 们 所 购买 的 东西 之 间 的 关联 。 所 得 到 的 信息 有 什么 用 途 ? 超市 经 理 是 否 应 
该 把 啤酒 和 暮 片 放 在 一 起 来 方便 客户 ” 或 者 将 它们 远 远 地 分 开 ， 让 客户 稍 感 不 便 ， 从 而 尽 
量 延长 他 们 在 超市 的 时 间 ， 从 而 增 大 他 们 买 未 列 人 计划 商品 的 可 能 性 ? 超市 经 理 是 否 应 该 
把 最 昂贵 的 、 利 润 最 高 的 尿 片 移 到 靠近 啤酒 的 位 置 来 增加 对 被 折磨 的 父亲 的 高 利润 商品 的 
销售 ， 还 要 在 边 上 加 上 高 级 婴儿 用 品 ? 

当然 ， 任 何 一 个 使 用 高 级 技术 的 人 都 应 该 深入 思考 他 们 在 做 什么 。 如 果 数 据 定义 为 记 
录 的 事实 ， 那 么 信息 就 是 基于 数据 的 模型 集 ， 或 者 期 望 。 可 以 把 知识 定义 为 期 望 集 的 累 


第 1 章 结 d 27 





积 ， 把 智慧 定义 为 附加 在 知识 上 的 价值 。 尽 管 这 里 我 们 不 研究 它 ， 但 是 这 些 问题 是 值得 思 
考 的 。 

正如 我 们 在 本 章 的 一 开始 所 看 到 的 ， 在 本 书 中 阐述 的 技术 也 许 会 用 于 生活 中 最 复杂 、 
最 迫切 的 决定 。 数 据 挖掘 是 一 个 需要 我 们 严肃 对 待 的 技术 。 


1.7 补充 读物 


为 了 避免 打 断 正文 的 阅读 ， 所 有 参考 文献 将 收集 在 每 一 章 的 最 后 一 节 。 第 一 个 补充 读 
物 部 分 列 出 了 在 第 1 章 中 所 涉及 的 相关 论文 、 书 和 其 他 资源 。 在 本 章 开始 所 提 到 的 人 工 受 
精 的 研究 项 目 是 牛津 大 学 计算 实验 室 承担 的 ， 奶 牛 第 选 的 研究 项 目 是 由 新 西 兰 怀 卡 托 大 学 
计算 机 科学 系 承担 的 。 

天 气 问题 的 例子 来 源 于 Quinlan (1986) ， 已 经 广泛 用 来 解释 机 器 学 习 方 案 。 从 绪论 到 
1.2 节 所 提 到 的 天 气 问题 的 主体 部 分 出 自 Asuncion 和 Newman (2007) 。 隐 形 眼 镜 的 例子 出 
Á Cendrowska (1987) ， 我 们 将 在 第 4 章 学 习 由 他 提出 的 PRISM 规则 学 习 算 法 。 营 尾 花 数 
据 集 出 自 一 篇 在 统计 推论 方面 的 早期 的 经 典 论文 (Fisher，1936 ) 。 劳 资 协商 的 数据 来 自 
(Collective Bargaining Review》， 一 个 加 拿 大 工会 的 出 版 物 ， 由 工业 关系 信息 服务 发 行 
(BLI 1988) Michalski 和 Chilausky (1980) 首先 描述 了 大 豆 问题 。 

fr 1.3 节 中 提 到 的 一 些 应 用 出 自 一 篇 优秀 的 论文 ， 它 给 出 了 丰富 的 机 器 学 习 应 用 和 规 
则 归纳 法 (Langley 和 Simon, 1995) ; 另 一 个 有 关 领 域 应 用 的 案例 出 自 一 本 机 器 学 习 杂 志 
(Kohavi 和 Provost, 1998) Chakrabarti (2003) 写 了 一 本 优秀 易 懂 的 关于 Web 挖掘 的 书 ; 
最 近 的 另 一 本 书 是 Liu 的 《Web data mining) (2009), Michie (1989) 详细 阐述 了 信贷 公 
司 应 用 ; 浮 油 探测 的 应 用 来 自 Kubat 等 (1998); 电力 负载 预测 工作 的 应 用 源 于 Jabbour 等 
(1988) ; 电子 机 械 设备 预防 性 维护 应 用 出 自 Saitta 和 Neri (1998), 在 1.3 节 中 提 到 的 一 
些 其 他 更 完整 的 描述 (包括 节约 的 美元 的 数值 ， 有 关 的 文献 参考 ) 出 自 Alberta Ingenuity 
Centre 机 器 学 习 的 网 站 。Luan (2002) 描述 了 更 高 级 的 数据 挖掘 应 用 。《Machine Learning 
Journal》 提 出 了 另 一 个 特殊 的 问题 ， 从 数据 挖掘 应 用 和 协作 式 问 题解 决 中 吸取 教训 (Lav- 
rac 等 ，2004 ) 。 

“纸尿裤 和 啤酒 ”的 故事 已 经 家 喻 户 晓 。 引 用 伦敦 《Financial Times) (财经 时 报 ) 的 
一 篇 文章 (1996 年 2 月 7 日 )， 

关于 数据 挖掘 能 做 什么 ， 常 常 引 用 美国 一 家 大 型 连锁 超市 的 例子 。 该 超市 发 

现 对 于 许多 顾客 ,一 种 品牌 的 婴儿 纸尿裤 和 一 个 品牌 的 啤酒 有 很 强 的 关联 。 大 多 

数 买 纸尿裤 的 顾客 同样 也 会 买 啤酒 。 即 使 是 对 超市 最 了 解 的 人 也 很 难 提 出 这 种 关 

K, 但 数据 挖 握 表 明 它 的 确 存 在 ， 鹤 信和 经 销 商 把 这 两 种 产品 放 在 靠近 的 架子 上 ， 

从 而 利用 这 种 感觉 关联 。 

然而 ， 这 似乎 只 是 一 个 传说 。Power (2002) 追踪 了 它 的 历史 。 

在 Quinlan 的 一 系列 论文 和 一 本 书 中 ( Quinlan，1993) ， 提 到 他 的 方案 与 由 Breiman 等 
于 1984 年 独立 出 版 的 书 《Classification and regression tree) (Breiman 等 ，1984) 中 介绍 的 
方案 相似 (1.4 节 )。 

第 一 本 有 关 数 据 挖掘 的 书 是 由 Piatetsky- Shapiro 和 Frawley (1991) 写 的 ， 它 收集 了 在 
20 世纪 80 年 代 末 的 一 个 关于 从 数据 库 里 发 现 知识 的 研讨 会 上 发 表 的 论文 。 另 一 本 书 出 自 
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1994 年 的 一 个 研讨 会 (Fayyad 等 ，1996)。 还 有 一 些 是 以 商业 为 主 的 数据 挖掘 方面 的 书 ， 
它们 主要 关注 于 实际 方面 的 应 用 : 如 何 把 位 于 所 使 用 的 方法 下 的 比较 表面 化 的 技术 运用 到 
实际 中 。 它 们 是 有 价值 的 应 用 和 启示 的 来 源 。 它 们 都 是 有 价值 的 应 用 和 灵感 来 源 。 例如 ， 
来 自 Syllogic 的 Adriaans 和 Zantige (1996) ， 一 个 欧洲 的 系统 和 数据 库 的 咨询 服务 公司 ， 很 
早 以 前 就 对 数据 挖掘 做 过 介绍 。 来 自 宾夕法尼亚 州 的 一 个 专门 研究 数据 仓库 和 数据 挖掘 公 
司 的 Berry 和 Linoff (1997) ， 为 市 场 、 销 售 和 客户 支持 给 出 了 一 个 出 色 的 基于 样本 的 数据 
挖掘 技术 回顾 。5 个 来 自 IBM 跨国 实验 室 的 研究 人 员 Cabena 等 (1998) 用 许多 真实 世界 
的 应 用 例子 概括 了 数据 挖掘 的 过 程 。 

Dhar 和 Stein (1997) 给 出 了 有 关 数 据 挖掘 在 商业 方面 的 前 景 ， 包 括 对 许多 技术 的 大 
致 的 、 通 俗 的 回顾 。 为 数据 挖掘 软件 公司 工作 的 Groth (1998) 给 出 了 一 个 简洁 的 数据 挖 
掘 的 绪论 ， 然 后 对 数据 挖掘 软件 产品 进行 了 完整 广泛 的 回顾 。 这 本 书包 括 一 张 他 们 公司 产 
品 演示 版 本 的 光盘 。Weiss 和 Indurkhya (1998) 为 他 们 称 为 “大 数据 ”的 数据 做 出 预测 ， 
广泛 研究 了 不 同 的 统计 技术 。Han 和 Kamber (2006) 从 数据 库 的 角度 涉及 数据 控 掘 ， 重 
点 关注 从 大 型 公司 的 数据 库 中 发 现 知识 。 这 个 领域 里 受到 广泛 尊敬 的 一 个 国际 作家 团体 
Hand 等 (2001) 撰写 了 一 本 各 个 学 科 在 数据 挖掘 应 用 方面 的 书 。 最 后 ，Nisbet 等 (2009) 
写 了 一 本 通俗 易 懂 的 统计 分 析 和 数据 挖掘 应 用 的 书 。 

另 一 方面 ， 有 关机 器 学 习 的 书 往往 使 用 学 术 的 文体 ， 比较 适合 于 大 学 课程 而 不 能 作为 
实际 应 用 的 指导 。Mitchell (1997) 写 了 一 本 出 色 的 书 ， 它 涵盖 了 大 量 的 机 器 学 习 技 术 ， 
包括 了 一 些 本 书 未 提 及 的 基因 算法 和 增强 学 习 法 。Langley (1996) 写 了 另 一 篇 很 好 的 文 
章 。 尽 管 上 面 提 到 的 Quinlan (1993) 的 书 集中 讨论 一 个 特殊 的 学 习 算 法 C4.5， 我 们 将 在 
第 4 章 和 第 6 章 中 详细 介绍 它 ， 但 对 于 许多 机 器 学 习 的 问题 和 技术 来 说 ， 它 仍 是 一 个 很 好 
的 启蒙 。 从 统计 的 角度 来 看 ，Hastie 等 (2001) 写 的 书 ， 绝 对 是 一 本 卓越 的 机 器 学 习 的 
书 。 它 从 理论 上 来 指导 研究 ， 并 且 采 用 了 很 好 的 例证 。Russell 和 Norvig 的 《Artificial intel- 
ligence; A modern approach) (A LEE: 一 种 现代 方法 ) (2009) 是 经 典 教材 的 第 3 版 ， 
它 涵 盖 了 大 量 关 于 机 器 学 习 和 数据 挖掘 的 信息 。 

模式 识别 是 一 个 与 机 器 学 习 紧 密 相关 的 主题 ， 它 运用 了 许多 相同 的 技术 。Duda 等 
(2001) 出 版 的 有 关 模 式 识别 (Duda 和 Hart, 1973) 的 第 2 版 是 一 本 优秀 和 成 功 的 书 。 
Ripley (1996) 和 Bishop (1995) 阐述 了 用 于 模式 识别 的 神经 网 络 。Bishop 最 新 的 一 本 书 
是 《Pattern recognition and machine learning) (2006 )。 用 神经 网 络 进行 数据 挖掘 是 Bigus 
(1996) 所 著 的 书 里 的 一 个 主题 ，Bigus 为 IBM 工作 ， 这 本 书 介绍 了 由 他 开发 的 IBM 神经 
网 络 应 用 产品 。 

如 今 很 多 人 对 支持 向 量 机 学 习 的 技术 感 兴趣 。Cristianini 和 Shawe-Taylor (2000) 给 出 
了 一 个 很 好 的 介绍 ， 细 述 了 有 关 应 用 的 附加 算法 、 内 核 和 解决 方案 ， 并 用 模式 找 出 生物 信 
息 、 文 本 分 析 和 图 像 分 析 领 域 里 的 问题 (Shawe- Taylor 和 Cristianini, 2004) 。 Schólkopf 和 
Smola (2002) 是 两 个 年 轻 的 研究 人 员 ， 他 们 在 这 个 迅速 发 展 的 机 器 学 习 的 分 支 上 做 他 们 
的 博士 论文 。 他 们 在 论文 中 详细 介绍 了 支持 向 量 机 和 有 关 的 核心 方案 。 

Ohm (2009) 对 再 识别 技术 这 个 新 兴 和 领域 以 及 与 它 紧密 相关 的 匿名 问题 进行 了 探讨 。 
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在 深入 研究 机 器 学 习 方案 如 何 运作 以 前 ， 需 要 了 解 可 以 采取 哪些 不 同形 式 的 输入 。 第 
3 章 将 介绍 会 产生 哪些 不 同形 式 的 输出 。 与 所 有 软件 系统 一 样 ， 了 解 输入 /输出 分 别 是 什 
么 远 比 理解 软件 如 何 工作 更 为 重要 ， 机 器 学 习 也 不 例外 。 

机 器 学 习 的 输入 采用 概念 (concept) 、 实 例 (instance) 和 属性 (attribute). 的 形式 。 
能 够 被 学 习 的 事物 称 为 概念 描述 (concept description) 。 机 器 学 习 中 的 概念 ， 乍 看 上 去 就 
和 学 习 一 样 ， 很 难 给 出 精确 的 定义 ， 这 里 也 不 打算 纠缠 它 是 什么 和 不 是 什么 的 哲学 问题 。 
从 某 种 意义 上 说 ， 学 习 过 程 的 结果 (一 个 概念 的 描述 ) 正 是 我 们 所 要 发 现 的 ， 是 可 理解 的 
(intelligible) ， 能 够 被 理解 、 商 讨 和 辩论 ， 并 且 是 可 操作 的 (operational): 能 够 被 运用 到 
实际 的 样本 上 。 下 一 节 将 介绍 不 同 机 器 学 习 问题 之 间 的 一 些 差异 ， 这 些 差 异 在 实际 数据 挖 
掘 中 非常 具体 ， 也 非常 重要 。 

机 器 学 习 中 ， 信 息 以 实例 (instances) 集 的 形式 呈现 给 学 习 者 。 正 如 第 1 章 所 述 ， 每 
一 个 实例 都 是 一 个 将 要 被 学 习 的 、 独 立 的 概念 样本 。 当 然 ， 许 多 情况 下 原始 数据 并 不 能 由 
一 些 单一 的 、 独 立 的 实例 表示 。 也 许 应 该 把 背景 知识 作为 输入 的 一 部 分 考虑 进来 。 原 始 数 
据 可 能 会 以 一 大 块 的 形式 出 现 ， 并 不 可 以 被 拆 分 成 单一 的 实例 。 原 始 数据 也 可 能 是 一 个 序 
列 ， 如 一 个 时 间 序 列 ， 如 果 将 它 剪 成 数 段 后 将 会 失去 意义 。 然 而 ， 本 书 是 有 关 数 据 挖 掘 的 
简单 而 实用 的 方法 ， 重 点 在 于 研究 那些 能 够 以 独立 样本 形式 出 现 的 信息 。 

每 一 个 实例 由 度量 实例 不 同方 面 的 一 些 属性 值 所 刻画 。 属 性 存在 许多 不 同 的 类 型 ， 尽 
管 典 型 的 数据 挖掘 方案 只 处 理 数值 属性 和 名 目 (nominal) 属性 ， 或 称 为 分 类 属性 。 

最 后 ， 我 们 将 考察 为 数据 挖掘 而 进行 数据 输入 准备 的 问题 ， 并 且 介 绍 一 个 与 本 书 配套 
的 Java 软件 所 使 用 的 简单 格式 。 它 用 文本 文件 表示 输入 信息 。 


2.1 概念 


在 数据 控 据 应 用 领域 里 存在 4 种 完全 不 同 的 学 习 方 式 。 分 类 学 习 (classification learn- 
ing) 是 用 一 个 已 分 类 的 样本 集 来 表示 学 习 方 案 ， 并 希望 从 这 个 样本 集中 学 习 对 未 来 样本 
进行 分 类 的 方法 。 关 联 学 习 (association learning) 寻找 任何 特性 之 间 的 关联 ， 而 不 仅仅 是 
为 了 预测 一 个 特定 的 类 值 。 聚 类 (clustering) 寻找 能 够 组 合 在 一 起 的 样本 ， 并 据 此 分 组 。 
数值 预测 (numeric prediction) 预测 出 的 结论 不 是 一 个 离散 类 而 是 一 个 数值 量 。 不 管 采用 
什么 方式 进行 学 习 ， 这 里 将 被 学 习 的 东西 称 为 概念 (concept), ， 由 学 习 方案 产生 的 输出 就 
是 概念 描述 (concept description) 。 

第 1 章 里 的 大 部 分 例子 属于 分 类 问题 。 天 气 数据 ( 见 表 1-2 MK 1-3) 是 一 组 日 期 的 
集合 ， 并 且 对 每 一 天 标注 了 是 否 适合 进行 体育 活动 的 判断 结果 。 问 题 是 要 学 习 如 何 用 是 否 
玩 对 新 的 一 天 进行 分 类 。 存 在 于 隐形 眼镜 数据 ( 见 表 1-1) 里 的 问题 是 要 学 习 如 何 向 一 个 
新 的 病人 推荐 一 副 适合 的 眼镜 ,或 者 把 问题 再 明确 一 点 ， 因 为 这 套数 据 展示 了 所 有 属性 值 
的 组 合 ， 需 要 学 习 对 所 给 数据 进行 总 结 的 方法 。 从 音 尾 花 数据 ( 见 表 1-4) 中 要 学 习 如 何 
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根据 花 划 的 长 度 和 宽度 ， 以 及 花 瓣 的 长 度 和 宽度 推测 出 新 营 尾 花 属 于 setosa, versicolor 或 
virginica 中 的 哪 一 种 。 对 于 劳资 协商 数据 ( 见 表 1-6) ， 要 根据 合同 时 间 ， 第 一 、 二 、 三 年 
的 工资 增长 幅度 以 及 生活 费 调整 等 ， 判 断 一 个 新 的 合同 能 否 被 接受 。 

我 们 假定 书 中 所 有 的 样本 属于 且 只 能 属于 一 个 类 别 。 然 而 还 是 存在 一 些 分 类 场景 ， 每 
个 样本 可 能 属于 多 个 类 别 。 专 业 术 语 叫 做 多 类 标 实例 (multilabeled instance) 。 处 理 这 种 场 
景 的 一 个 简单 方法 就 是 把 它们 当做 几 种 不 同 的 分 类 问题 来 对 待 ， 每 个 对 应 一 个 可 能 的 类 
别 ， 相 应 的 问题 就 是 确定 实例 是 否 属于 该 类 别 。 

分 类 学 习 有 时 又 称 为 有 监督 的 〈supervised) 学 习 ， 就 是 因为 从 某 种 意义 上 来 说 ， 学 
习 方 案 是 在 指导 下 操作 的 ， 这 里 所 说 的 指导 就 是 每 一 个 训练 样本 都 有 一 个 明确 的 结论 ， 如 
是 否 玩 的 判断 、 推 荐 的 隐形 眼镜 类 型 、 营 尾 花 的 品种 、 劳 工 合同 的 可 接受 性 。 这 些 结论 称 
为 样本 的 类 (class) 。 把 学 到 的 概念 描述 在 一 个 独立 的 数据 测试 集 上 进行 测试 ， 已 知 这 个 
测试 集 的 分 类 ， 但 是 对 于 机 器 它 是 未 知 的 ， 以 此 来 判断 分 类 学 习 是 否 成 功 。 在 测试 数据 上 
的 成 功率 是 对 所 学 到 的 概念 的 一 个 客观 评价 。 在 许多 实际 数据 挖掘 应 用 中 ， 衡 量 数据 挖 所 
成 功 的 标准 是 以 人 类 使 用 者 对 所 学 到 的 概念 描述 (规则 、 决 策 树 ) 接受 程度 所 决定 的 ， 是 
一 个 主观 的 评价 。 

第 1 章 的 大 部 分 例子 同样 可 以 用 于 关联 学 习 ， 关 联 学 习 中 没有 指出 特定 的 类 。 问 题 是 
如 何 从 数据 中 找 出 “有 趣 的 ”结构 。1. 2 节 已 经 给 出 了 一 些 天 气 数据 的 关联 规则 。 关 联 规 

[40] 则 和 分 类 规则 在 两 个 方面 存在 不 同 : 关联 规则 可 以 “预测 ”任何 属性 ， 不 只 是 类 ， 也 可 以 
一 次 预测 一 个 以 上 的 属性 值 。 正 因为 如 此 ， 关 联 规则 的 数量 要 远 远 多 于 分 类 规则 的 数量 ， 
其 中 的 问题 是 要 避免 被 过 多 的 关联 规则 所 困扰 。 所 以 ， 通 常 要 为 关联 规则 制定 一 个 能 够 适 
用 的 最 小 样本 数量 (如 数据 集 的 80% ) ， 并 且 还 要 大 于 一 个 特定 的 最 小 准确 率 ， 如 准确 率 
为 95%。 尽 管 如 此 ， 仍然 会 产生 大 量 的 规则 ， 因 此 必须 手动 验证 它们 是 否 具有 意义 。 关 联 
规则 通常 仅 包 含 非 数 值 的 属性 ， 一 般 不 会 从 功 尾 花 数 据 集 中 寻找 关联 规则 。 

当 样本 不 存在 一 个 特定 的 类 时 ， 可 以 采用 聚 类 的 方法 将 那些 看 上 去 会 自然 汇聚 在 一 起 
的 样本 集合 在 一 起 。 表 2-1 是 一 个 省 略 了 音 尾 花 类 型 的 数据 版 本 。150 个 实例 很 可 能 自然 
地 落 入 3 个 与 昔 尾 花 类 型 相对 应 的 聚 类 内 。 其 中 的 挑战 是 要 找 出 这 些 聚 类 ， 并 把 实例 分 配 
到 各 个 聚 类 上 ， 还 要 能 够 将 新 的 实例 分 配 到 相应 的 聚 类 上 。 有 可 能 一 个 或 多 个 音 尾 花 品 种 
自然 地 分 成 多 个 子 聚 类 ， 这 时 产生 的 自然 聚 类 数量 将 超过 3 个 。 聚 类 的 成 功 与 否 通常 以 所 
得 到 的 结论 对 人 类 使 用 者 是 否 有 用 来 主观 地 衡量 。 它 常 伴随 着 第 二 步 分 类 学 习 ， 所 学 到 的 

规则 将 给 出 如 何 把 新 的 实例 安置 到 相应 聚 类 里 的 可 以 理解 的 描述 。 


zx 2-1 聚 类 问题 的 营 尾 花 数据 
sepal length sepal width petal length petal width 
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( 续 ) 
sepal length sepal width petal length petal width 
55 6.5 2.8 4.6 1.5 
101 6.3 3.3 6.0 2.5 
102 5.8 2.7 5.1 1.9 
103 7.1 3.0 5.9 2.1 
104 6.3 2.9 5.6 2.8 
105 6.5 3.0 5.8 2.2 


数值 预测 是 分 类 学 习 的 一 种 变 体 ， 数 值 预测 的 结论 是 一 个 数值 ， 而 不 是 一 个 分 类 。 
CPU 性 能 问题 就 是 一 个 预测 数值 的 例子 。 表 2-2 展示 了 另 一 个 例子 ， 在 这 个 版 本 的 天 气 数 
据 里 ， 预 测 值 不 是 玩 或 者 不 玩 ， 而 是 玩 的 时 间 (分 钟 )。 对 于 数值 预测 问题 ， 以 及 其 他 的 
机 器 学 习 问 题 ， 所 学 到 的 描述 性 的 结构 往往 比 对 新 实例 的 预测 值 更 能 引起 人 们 的 兴趣 。 这 
个 结构 指出 了 哪些 是 重要 的 属性 ， 以 及 它们 与 数值 结论 存在 什么 关系 。 
表 2-2 数值 类 的 天 气 数据 





outlook temperature humidity windy play time 
Sunny 85 85 false 5 
Sunny 80 90 true 0 
Overcast 83 86 false 55 
Rainy 70 96 false 40 
Rainy 68 80 false 65 
Rainy 65 70 true 45 
Overcast 64 65 true 60 
Sunny 72 95 false 0 
Sunny 69 70 false 70 
Rainy 75 80 false 45 
Sunny 9s 70 true 50 
Overcast 72 90 true 55 
Overcast 81 75 false 75 
Rainy 71 91 true 10 
2.2 样本 


机 器 学 习 方 案 的 输入 是 一 个 实例 集 。 这 些 实例 由 机 器 学 习 方案 进行 分 类 、 关 联 或 聚 
类 。 尽 管 到 现在 为 止 ， 它 们 称 为 样本 (example) ， 但 是 从 现在 开始 将 用 更 专业 的 术语 实例 
(instance) 来 表示 输入 。 每 一 个 实例 都 是 一 个 被 用 来 学 习 的 单一 的 、 独 立 的 概念 样本 。 每 
个 实例 由 一 组 预先 定义 的 属性 值 来 表示 。 第 1 章 讨论 过 的 所 有 数据 集 ( 天气、 隐形 眼镜 、 
功 尾 花 和 劳资 协商 问题 ) 中 的 实例 都 是 这 样 产生 的 。 每 一 个 数据 集 都 可 以 表示 成 实例 与 属 
性 的 矩阵 ， 用 数据 库 的 术语 说 这 是 单一 关系 ， 或 平面 文件 (flat file); 

用 一 个 独立 的 实例 集 来 表示 输入 数据 是 目前 为 止 用 于 实际 数据 挖掘 中 最 普遍 的 方法 。 
然而 这 种 阐明 问题 的 方法 存在 一 些 局 限 性 ， 下 面 对 局 限 性 存在 的 原因 进行 解释 。 实 例 之 间 
通常 存在 某 种 关系 ， 并 不 是 真正 彼此 分 离 的 、 独 立 的 。 例 如 ， 从 一 个 给 出 的 家 族 树 上 学 习 
姐妹 (sister) 的 概念 。 想 象 你 自己 的 家 族 树 ， 并 把 你 所 有 的 家 族 成 员 (和 他 们 的 性 别 ) 
分 别 放置 在 各 个 结 点 上 。 这 棵 树 ， 以 及 成 员 名 单 和 对 应 的 他 们 是 否 存 在 姐妹 关系 的 描述 就 
是 学 习 过 程 的 输入 。 
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2.2.1 关系 


图 2-1 显示 了 一 个 家 族 树 的 一 部 分 ， 树 下 面 的 两 个 定义 姐妹 关系 的 表格 所 用 的 方法 稍 
微 有 些 不 同 。 第 三 列 里 的 yes 意味 着 第 二 列 的 家 族 成 员 和 第 一 列 的 家 族 成 员 存 在 姐妹 关系 
(这 是 我 们 随意 构建 的 一 个 例子 )。 


Peter = Peggy Grace = Ray 
M F F M 
Steven Graham Pam = Ian Pippa Brian 
M M F M F M 
Anna Nikki 
F F 





图 2-1 一 个 家 族 树 和 两 种 表示 姐妹 关系 的 方法 


首先 需要 注意 的 是 左边 那 张 表 的 第 三 列 存在 很 多 no。 因 为 每 列 有 12 个 成 员 ， 所 以 总 
共有 12 x12 2144 对 成 员 ， 其 中 大 部 分 的 成 员 对 并 不 存在 姐妹 关系 。 右 边 的 表 给 出 了 同样 
的 信息 ， 但 只 记录 了 肯定 的 样本 ， 并 假设 剩余 的 都 是 否定 的 样本 。 仅 明确 指出 肯定 样本 且 
采用 一 个 不 变 的 假设 ( 剩 下 的 都 是 否定 的 样本 ) 的 做 法 称 为 封闭 世界 假定 ( closed- world 
assumption) 。 这 是 理论 研究 中 常用 的 假设 ， 但 是 在 解决 实际 问题 时 它 并 不 实用 ， 封 闭 世 界 
意味 着 包含 了 所 有 事件 ， 而 在 实际 中 很 少 存 在 “封闭 的 ”世界 。 

图 2-1 中 的 两 张 表 都 不 能 离开 家 族 树 单独 使 用 。 这 棵 树 同 样 能 够 用 表格 形式 来 表示 ， 
表 2-3 显 示 了 以 表格 形式 表达 的 该 树 的 部 分 内 容 。 现 在 这 个 问题 可 以 用 两 种 关系 来 表达 。 但 
是 这 些 表 不 包含 独立 的 实例 集 ， 因 为 判断 姐妹 关系 所 依据 的 列 ( 姓 名、 父母 1 和 父母 2) 的 
值 需要 参考 家 族 树 关 系 的 行 。 表 2-4 是 把 两 张 表 合 并 成 一 张 表 后 产生 的 一 个 单独 的 实例 集 。 











表 2-3 家 族 树 
name gender parent 1 parent 2 
Peter male ? 
Peggy female ? ? 
Steven male Peter Peggy 
Graham male Peter Peggy 
Pam female Peter Peggy 


Ian male Grace Ray 
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现在 已 经 成 功 地 把 原始 关系 问题 转换 成 实例 的 形式 ， 每 个 实例 都 是 一 个 单一 的 、 独 立 
的 概念 样本 ， 这 个 样本 被 用 来 学 习 。 当 然 ， 实 例 并 没有 真正 独立 ， 在 表 的 不 同行 之 间 存 在 
许多 关系 ， 但 是 如 果 从 姐妹 关系 的 概念 角度 考虑 ， 它 们 是 独立 的 。 许 多 机 器 学 习 方 法 在 处 
理 这 类 数据 时 仍然 存在 问题 ， 这 些 问题 将 在 3. 4 节 中 讨论 ， 但 是 现在 至 少 已 经 把 数据 重新 
转换 为 正确 的 形式 。 一 个 姐妹 关系 的 简单 规则 是 : 


If second person's gender = female 
and first person's parent 1 - second person's parent 1 
then sister-of - yes 


这 个 例子 说 明了 如 何 从 一 棵 树 上 获取 不 同 结 点 间 的 关系 ， 并 且 转 换 成 一 个 独立 的 实例 
集 。 用 数据 库 的 术语 说 ， 获 取 了 两 个 关系 ， 并 且 把 它们 结合 成 一 个 。 这 是 一 个 平面 化 的 处 
FR FE, ， 技 术 上 称 为 反 规 范 化 (denormalization) 。 对 一 些 存 在 (有 限 的 ) 关系 的 (有限 
的 ) 集合 来 说 ， 这 个 过 程 是 可 以 实现 的 。 

X 2-4 所 示 的 结构 能 够 用 来 表示 两 个 家 庭 成 员 之 间 的 任何 亲属 关系 : 祖 孙 关系 、 孙 子 
与 祖父 的 兄弟 之 间 的 关系 或 其 他 关系 。 要 表示 出 更 多 家 庭 成 员 之 间 的 关系 就 需要 一 张 更 大 
的 表 。 如 果 家 庭 成 员 的 总 数 没有 事先 明确 ， 将 对 关系 的 表示 造成 很 大 的 困难 。 假 如 要 学 习 
核心 家 庭 (nuclear family) (父母 和 他 们 的 孩子 ) 的 概念 ， 包 含 的 人 的 总 数 取 决 于 人 口 最 
多 的 核心 家 庭 ， 尽 管 可 以 猜测 一 个 合理 的 最 大 数字 (10 20), 但 是 真正 的 核心 家 庭 成 员 
数量 只 能 通过 扫描 整 棵 树 来 找 出 。 然 而 ， 如 果 有 一 个 存在 有 限 关 系 的 有 限 集 ， 至 少 在 理论 
上 ， 可 以 产生 一 个 新 的 记录 了 家 庭 成 员 之 间 所 有 组 合 的 “超级 关系 ”， 无 论 有 多 少 家 庭 成 
员 ， 这 个 “超级 关系 ”足以 表示 出 成 员 之 间 的 任何 关系 。 但 是 ， 从 计算 和 存储 的 代价 来 说 
这 种 方法 都 是 不 可 行 的 。 


表 2-4 在 一 张 表 中 表示 姐妹 关系 











第 一 个 人 第 二 个 人 sister 

name gender parent 1 parent 2 | name gender parent 1 parent 2 of? 
Steven male Peter Peggy Pam female Peter Peggy | yes 
Graham male Peter Peggy Pam female Peter Peggy yes 
lan male Grace Ray Pippa female Grace Ray yes 
Brian male Grace Ray Pippa female Grace Ray yes 
Anna female Pam Ian Nikki female Pam lan yes 
Nikki female Pam Ian Anna female Pam Ian yes 
所 有 其 他 人 


























反 规范 化 存在 的 男 一 个 问题 是 在 某 些 数据 上 产生 了 显而易见 的 规律 性 ， 而 这 些 规律 性 
完全 是 虚假 的 ， 实 际 上 它们 仪 是 原始 数据 库 结构 的 再 现 。 例 如 ， 设 想 一 个 超市 数据 库 里 存 
在 一 种 顾客 和 他 所 买 商品 之 间 的 关系 ， 一 种 商品 和 供应 商 之 间 的 关系 ， 一 种 供应 商 和 供应 
商 地 址 之 间 的 关系 。 经 过 反 规 范 化 后 产生 一 个 平面 文件 ， 每 一 个 实例 将 包含 顾客 、 商 品 、 
供应 商 和 供应 商 地 址 。 一 个 在 数据 库 中 寻找 结构 的 数据 库 挖掘 工具 也 许 会 得 出 一 个 事实 : 
买 啤酒 的 顾客 也 买 暮 片 ， 对 超市 经 理 来 说 这 是 一 个 重大 的 发 现 。 然 而 ， 它 也 许 也 会 产生 另 
一 个 事实 : 供应 商 的 名 字 能 准确 地 预测 出 供应 商 的 地 址 ， 这 个 “发 现 ”根本 不 可 能 引起 超 
市 经 理 的 任何 兴趣 。 这 个 事实 从 表面 上 是 一 个 从 平面 文件 中 得 到 的 重大 发 现 ， 但 实际 上 ， 
它 只 是 原始 数据 库 中 明显 的 结构 。 

尽管 任何 真正 的 输入 实例 集 必 须 是 有 限 的 ， 但 是 许多 抽象 的 计算 问题 包含 了 一 些 非 有 
限 的 关系 。 如 祖先 关系 (ancestor-of) 的 概念 包括 一 个 贯穿 树 的 任意 长 度 的 路 径 ， 虽然 人 
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类 的 家 族 树 或 许 是 有 限 的 (尽管 大 得 惊人 ) ， 但 是 很 多 人 造 问题 产生 的 数据 确实 是 无 限 的 。 
这 听 起 来 也 许 很 深奥 ， 但 是 这 种 现象 在 类 似 于 列表 处 理 及 逻辑 编程 等 领域 却 很 常见 ， 且 在 
一 个 称 为 归纳 逻辑 编程 (inductive logic programming) 的 机 器 学 习 分 支 领域 里 有 过 探讨 。 
在 可 能 的 实例 数量 是 无 限 的 情况 下 ,计算 机 科学 家 通常 使 用 递归 的 方法 进行 处 理 。 例 如 ， 
If person 1 is a parent of person 2 
then person 1 is an ancestor of person 2 
If person 1 is a parent of person 2 


and person 2 is an ancestor of person 3 
then person 1 is an ancestor of person 3 


不 管 两 个 人 的 关系 有 多 远 ， 都 能 用 这 个 简单 的 祖先 (ancestor) 的 递归 定义 来 表示 。 
归纳 逻辑 编程 技术 能 够 从 一 个 如 表 2-5 所 示 的 有 限 实例 集 里 学 习 递 归 规 则 。 

递归 技术 的 一 个 真正 缺陷 是 不 善于 处 理 噪 声 数据 ， 除 了 一 些小 的 人 造 数据 集 外 ， 对 其 
他 数据 集 来 说 ， 它 的 处 理 速度 往往 太 慢 以 致 不 能 用 。 本 书 没 有 涉及 这 个 技术 ， 但 Bergada- 
no 和 Gunetti (1996) 曾 提 出 了 一 个 综合 处 理 法 。 


2.2.2 其 他 实例 类 型 


如 前 所 述 ， 广 义 上 的 关系 给 我 们 提出 了 重大 挑战 ， 本 书 将 不 再 提 及 。 如 图 和 树 这 样 的 
结构 化 样本 可 以 视 为 是 关系 的 特例 ， 它 们 经 常 通过 提取 出 基于 其 自身 结构 的 局 部 或 全 局 特 
征 而 被 映射 为 一 些 独 立 的 实例 ， 而 这 些 特 征 可 以 用 属性 来 表示 。 同 样 ， 项 目 序列 也 能 视 为 
描述 项 目的 关系 ,或 者 是 其 中 的 项 目 个 体 ， 也 可 视 为 一 个 固定 的 属性 集 。 幸 运 的 是 ， 大 多 
数 的 实际 数据 挖掘 问题 都 能 有 效 地 表达 为 一 个 实例 集 ， 每 一 个 这 样 的 实例 集 都 能 看 做 是 一 
个 希望 被 学 习 的 概念 样本 。 


表 2-5 用 表 描 述 的 另 一 种 关系 






































第 一 个 人 第 二 个 人 

name gender | parent 1 parent 2 name gender parent 1 parent 2 of? 
Peter male g d Steven male Peter Peggy yes 
Peter male ? ? Pam female Peter ` Peggy yes 
Peter male ? ? Anna female Pam Ian yes 
Peter male ? ? Nikki female Pam Ian yes 
Pam female Peter Peggy Nikki female Pam lan yes 
Grace female ? ? Ian male Grace Ray yes 
Grace Nikki female Pam Ian yes 
其 他 实例 yes 
所 有 其 他 人 











在 某 些 情况 下 ， 概 念 样本 并 非 由 单个 实体 表示 ， 而 是 由 一 系列 具有 相同 属性 的 实体 构 
成 。 这 种 多 实体 形式 出 现在 一 些 重要 的 真实 应 用 中 。 其 中 一 个 例子 是 关于 活跃 药 分 子 特性 
推论 ， 即 药 分 子 的 活跃 性 由 药 分 子 与 “ 键 合 点 ”的 关联 程度 决定 。 问 题 在 于 可 以 通过 药 分 
子 键 的 旋转 得 到 两 种 不 同 的 情况 。 如 果 药 分 子 中 仅 有 一 个 形状 与 其 键 合 点 相连 并 具有 预期 
效应 ， 我 们 就 称 其 为 正 相 。 如 果 药 分 子 的 所 有 形状 都 与 其 键 合 点 不 相连 ， 我 们 就 称 其 为 负 
相 。 这 样 ， 一 个 多 实体 就 是 一 个 形状 集合 ， 利 用 整个 形状 集合 才能 对 正 或 负 进 行 分 类 。 

当 数据 库 中 的 关系 执行 联接 操作 时 ， 也 即 当 从 属 关系 中 的 若干 行 与 目标 关系 中 的 相应 
行进 行 联接 时 ， 自 然 也 会 出 现 多 实例 问题 。 举 例 来 说 ,我 们 可 能 想 要 根据 保存 在 从 属 表 中 
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的 用 户 学 期 描述 信息 来 将 用 户 分 为 计算 机 专家 和 计算 机 菜鸟 。 而 目标 关系 中 仅 有 分 类 信息 
和 用 户 ID。 将 这 两 张 表 联接 成 一 个 文件 。 然 而 ， 属 于 单个 用 户 的 行 并 非 独 立 。 分 类 是 基于 
单个 用 户 所 进行 的 ， 所 以 与 单个 用 户 个 体 联接 的 所 有 学 期 实例 的 集合 共同 被 视 为 一 个 单独 
的 学 习 样 本 。 

多 实体 学 习 的 目的 依然 是 产生 出 一 个 概念 描述 ， 但 由 于 学 习 算 法 将 不 得 不 面临 处 理 训 
练 样本 中 所 包含 的 不 完全 信息 ， 这 使 得 学 习 任 务 变 得 更 艰难 。 学 习 算 法 将 每 一 个 实例 看 做 
是 多 个 属性 向 量 的 集合 ， 而 并 非 一 个 单独 的 属性 向 量 。 如 果 算法 知道 向 量 集合 中 哪些 成 员 
对 样本 分 类 有 用 ， 事 情 就 简单 了 ， 可 惜 情况 并 非 如 此 。 

有 些 特殊 的 学 习 算 法 被 开发 出 来 处 理 多 实例 问题 。 我 们 将 在 第 6 章 中 介绍 一 些 这 样 的 
特殊 算法 。 当 然 ， 我 们 也 可 以 将 多 实例 问题 重 塑 为 一 张 单独 的 包含 独立 实体 的 关系 表 ， 从 
而 应 用 标准 的 机 器 学 习 算 法 解决 问题 。 第 4 章 将 就 这 一 问题 展开 讨论 。 

总 之 ， 数 据 挖掘 算法 的 输入 通常 表达 为 一 张 包含 很 多 独立 实体 的 表 ， 这 些 实体 就 是 被 
TANS Re NIA, ST ME ET Pee Se eA (abs 
mining) 称 为 文件 挖 气 (file mining) ， 因 为 关系 型 数据 比 单 层 的 文件 数据 要 复杂 得 多 。 

个 由 有 限 关系 组 成 的 有 限 集合 总 是 能 够 被 重 构成 一 张 独立 的 表 ， 虽 然 这 样 的 重 构 通常 全面 
临 巨大 的 空间 开销 。 此 外 ， 反 规范 化 会 导致 在 数据 中 出 现 一 些 虚假 的 规律 性 ， 这 使 得 在 应 
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用 学 习 算 法 之 前 必须 对 数据 进行 考察 以 避免 出 现 人 为 的 规律 性 。 洪 在 的 无 限 概念 可 以 通过 
习 得 到 递归 规则 得 到 解决 ,但 是 这 超出 了 本 书 的 范围 。 最 后 ,一些 重 要 的 真实 问题 自然 
需要 通过 多 实例 格式 得 以 表达 ， 其 中 每 一 个 样本 实际 上 都 是 一 个 单独 的 实体 集合 。 


2.3 属性 


每 个 单一 的 、 独 立 的 实例 是 由 一 组 固定 的 和 预先 定义 的 特征 或 属性 (attribute) 作为 
输入 提供 给 机 器 学 习 的 。 实 例 是 如 天 气 、 隐 形 眼镜 、 营 尾 花 和 CPU 性 能 问题 表 的 行 ， 属 
性 是 列 〈 劳 资 协 商 数 据 是 一 个 例外 ， 因 为 空间 的 原因 用 列表 示 实 例 ， 用 行 表 示 属 性 ) 。 

在 实际 的 数据 挖掘 所 考虑 的 问题 中 ， 一 个 固定 特征 集 的 使 用 是 一 种 限制 条 件 。 如 果 不 
同 实例 有 不 同 的 特征 会 怎样 ? 例如 ， 假 设 实例 是 交通 工具 ， 车 轮 的 数量 就 是 一 个 可 以 用 于 
许多 车 辆 的 特征 ， 但 是 不 能 用 于 船 ; 枪杆 的 根 数 是 船 的 特征 ， 但 不 适用 于 陆地 车 辆 。 一 种 
标准 的 工作 方法 是 把 每 一 个 可 能 的 特征 作为 一 个 属性 ， 并 使 用 一 个 “无 关 值 ” 的 标记 指出 
对 于 一 个 特定 的 案例 哪个 属性 不 适用 。 当 一 个 属性 的 存在 (如 配偶 的 名 字 ) 取决 于 另 一 个 
属性 值 时 〈 已 婚 或 未 婚 ) 就 会 出 现 类 似 的 情况 。 

一 个 特定 实例 的 一 个 属性 值 是 属性 所 对 应 部 分 的 一 个 测量 值 。 数 值 (numeric) 量 和 
&H (nominal) 量 之 间 存 在 明显 的 差异 。 数 值 属性 有 时 也 称 为 连续 (continuous) 属性 ， 
它 是 测量 到 的 实数 或 整数 值 。 需 要 注意 的 是 ， 从 数学 的 观点 上 说 ， 整 数值 在 数学 意义 上 当 
然 是 不 连续 的 ， 这 里 滥用 了 连续 这 个 术语 。 名 目 属性 是 从 一 个 预先 定义 的 有 限 的 可 能 值 的 
集合 中 取 值 ， 有 时 候 也 称 为 分 类 属性 。 但 是 也 存在 其 他 可 能 性 。 在 统计 的 文章 中 经 常 介绍 
“测量 尺度 ”， 如 名 目 (nominal), 、 有 序 (ordinal), Ki] (interval) 和 比率 (ratio) 。 

名 目 值 是 一 些 独 特 的 符号 。 这 些 值 作为 标签 或 者 名 字 使 用 ， 所 以 称 它们 为 名 目 。 这 个 
词 出 自 拉 丁 文 name。 例 如 ， 在 天 气 数 据 中 ，outlook 的 属性 值 是 : sunny, overcast 和 rainy, 
这 三 个 值 之 间 没 有 隐 含 任何 关系 ， 没 有 先后 次 序 或 距离 测量 。 把 值 进行 相 加 或 者 相 乘 ， 或 
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者 比较 它们 的 大 小 也 是 没有 意义 的 。 使 用 这 类 属性 的 规则 只 能 测试 相等 或 不 等 。 如 ， 


outlook: sunny no 
overcast ^ yes 
rainy ^ yes 


有 序 值 是 那些 有 可 能 进行 排序 的 类 别 值 。 尽 管 值 间 有 排序 (ordering) 的 可 能 ,但 是 
绝 不 存在 距离 (distance ) 。 例 如 ， 在 天 气 数据 里 ，temperature 的 属性 值 是 : hot, mild 和 
cool。 它 们 是 有 序 的 。 为 了 方便 ， 可 以 把 它们 看 成 : 

hot > mild > cool or hot < mild < cool 
只 要 保持 连贯 性 ， 两 者 缘 可 。 重 要 的 是 要 把 mild 放 在 其 他 两 个 值 之 间 。 尽 管 在 两 个 值 之 间 
进行 比较 是 有 意义 的 ， 但 是 将 它们 相 加 或 者 相 减 没有 意义 。hot 和 mild 之 间 的 差异 不 能 和 
mild 和 cool 之 间 的 差异 进行 比较 。 使 用 这 类 属性 的 规则 可 能 包括 一 个 比较 。 如 下 所 示 : 


temperature = hot > no 
temperature < hot 一 yes 








注意 名 目 量 和 有 序 量 之 间 的 差异 并 不 总 是 直接 明了 的 。 实 际 上 ， 以 上 使 用 的 这 个 有 序 量 
的 样本 ， 如 outlook ， 就 并 不 十 分 清楚 ， 也 许 还 会 出 现 分 歧 意 见 ， 认 为 三 个 值 之 间 确 实 存在 序 
Fijo overcast 可 以 认为 是 介 于 sunny 和 rainy 之 间 的 值 ， 它 是 天 气 由 好 转 坏 的 一 个 过 渡 阶 段 。 

区 间 值 不 但 是 有 序 的 而 且 还 可 以 用 固定 和 相等 的 单位 进行 度量 。 温 度 就 是 一 个 很 好 的 
例子 ， 它 用 度 表示 (如 华氏 ) ， 而 不 是 用 凉爽 、 温 和 和 炎热 等 非 数值 的 刻度 来 表示 。 讨 论 
两 个 温度 的 差 是 很 明确 的 工作 ， 如 46 度 和 48 度 ， 也 可 以 与 其 他 两 个 温度 之 间 的 差 进 行 比 
较 ， 如 22 度 和 24 度 。 另 一 个 例子 是 日 期 。 可 以 讨论 1939 年 和 1945 年 之 间 的 差 (6 年 )， 
甚至 可 以 计算 1939 年 和 1945 年 的 平均 值 (1942 年 )， 然 而 将 1939 年 与 1945 年 相 加 
(3884) ， 或 者 将 1939 年 乘 以 3 (5817) ， 都 没有 任何 意义 。 因 为 作为 开始 点 的 0 年 完全 是 
脐 想 出 来 的 ， 在 历史 上 它 已 经 更 改 很 多 次 了 (孩子 们 有 时 候 会 疑惑 公元 前 300 年 在 当时 是 
如 何 称呼 的 ) 。 

比率 值 的 测量 方法 内 在 定义 了 一 个 零点 。 例 如 ， 当 测量 一 个 物体 到 另 一 个 物体 的 距离 
时 ,物体 到 它 自身 的 距离 形成 一 个 自然 的 零 值 。 比 率 值 通常 是 实数 ， 所 以 可 以 进行 任何 数 
学 运算 。 当 然 将 距离 乘 以 3 也 是 合理 的 ， 两 个 距离 相 乘 将 得 到 面积 。 

然而 ， 问 题 是 一 个 “固有 ”定义 的 零点 是 否 基 于 我 们 的 科学 知识 ? 科学 知识 是 与 文化 
相 联系 的 。 例 如 ， 华 氏 并 没有 最 低温 度 的 限制 ， 它 的 刻度 是 一 个 区 间 。 但 是 现在 我 们 把 温 
度 看 成 基于 绝对 零 的 一 个 比率 值 。 用 年 来 计算 时 间 是 基于 由 文化 定义 的 零 ， 如 公元 元 年 ， 
它 不 是 一 个 比率 刻度 ， 而 是 开始 于 宇宙 大 爆炸 的 年 份 。 在 谈论 钱 的 零点 时 ， 人 们 通常 会 谈 
到 某 一 物品 要 比 另 一 种 物品 贵 一 倍 ， 但 对 于 我 们 中 间 那 些 不 断 将 信用 卡 刷 爆 的 人 来 说 ， 这 
种 谈论 就 不 是 很 有 意义 了 。 

许多 实际 的 数据 挖掘 系统 只 采用 4 种 测量 标准 中 的 两 种 : 名 目 和 有 序 。 名 目 属性 有 时 
称 为 类 别 的 (categorical) 、 枚 举 的 (enumerated) 或 离散 的 (discrete) 属性 。 枚 举 是 计算 
机 科学 里 的 一 个 标准 术语 ， 用 来 表示 分 类 的 数据 类 型 ， 但 严格 的 定义 应 该 是 它 与 自然 数字 
有 一 对 一 的 对 应 关系 ， 其 中 隐 含 了 一 个 顺序 的 关系 ， 但 是 在 机 器 学 习 中 没有 隐 含 顺序 关 
系 。 离 散 也 含有 顺序 的 关系 ， 因 为 通常 需要 离散 一 个 连续 的 数量 值 。 有 序 的 属性 经 常 称 为 
数值 的 或 连续 的 属性 ， 但 是 不 存在 数学 连贯 性 的 暗示。 名 目 值 的 一 个 特例 是 二 分 值 (和 i- 
chotomy) ， 它 只 有 两 个 值 ， 通 常设 计 成 如 天 气 数据 里 所 见 到 的 true Fil false, 或 者 yes 和 no 
的 形式 。 这 类 属性 有 时 也 称 为 布尔 (Boolean) 属性 。 
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机 器 学 习 系 统 可 以 使 用 许多 有 关 属 性 的 其 他 信息 。 例 如 ， 维 度 上 的 考虑 能 够 用 来 把 搜索 
限制 在 表示 或 者 比较 那些 维度 上 正确 的 数据 。 循 环 的 顺序 会 影响 到 多 种 测试 方案 的 制订 。 例 
如 ， 在 时 间 的 一 个 日 常 概念 中 ， 对 一 个 属性 是 天 (day) 的 测试 可 能 涉及 明天 、 前 天 、 下 一 
个 工作 日 、 下 周 的 同一 天 。 部 分 排序 是 一 般 或 者 具体 的 关系 ， 在 实际 中 频繁 发 生 。 这 种 信息 
通常 作为 元 数据 (metadata) 被 提 及 ， 元 数据 是 关于 数据 的 数据 。 然 而 ， 当 今 的 一 些 用 于 数 
据 控 掘 的 实际 方案 很 少 有 能 力 将 元 数据 考虑 进来 ， 不 过 这 种 能 力 会 在 未 来 得 到 迅速 发 展 。 


2.4 输入 准备 


在 整个 数据 挖掘 过 程 中 ， 为 数据 挖掘 研究 所 做 的 数据 输入 准备 工作 常常 需要 花费 大 量 的 
精力 。 本 书 并 不 打算 真正 讨论 数据 准备 问题 ， 只 是 指出 其 中 包含 的 一 些 问题 ， 从 中 认识 到 它 
的 复杂 性 。 接 着 将 讨论 一 个 特殊 的 文件 输入 格式 ， 属 性 相关 文件 格式 (ARFF) ， 它 是 第 三 部 
分 Weka 系统 使 用 的 一 个 输入 格式 。 然 后 阐述 在 数据 集 转换 成 ARFF 格式 过 程 中 将 会 产生 的 
问题 ， 以 及 需要 注意 的 一 些 简单 实际 要 点 。 实 验 表明 真实 数据 的 数据 质量 低 得 令 人 失望 ， 所 
以 称 为 数据 清理 (data cleaning) 的 一 个 仔细 检查 数据 的 过 程 是 数据 挖掘 的 重要 步 又 。 





2.4.1 数据 收集 


在 着 手 开 始 研 究 数 据 挖掘 问题 之 前 ， 首 先 需要 把 所 有 数据 集中 成 一 个 实例 集 。 在 讨论 
家 族 树 时 已 经 解释 了 将 关系 数据 进行 反 规 格 化 的 原因 。 尽 管 它 揭示 了 数据 集中 的 基本 问 
题 ， 但 是 这 种 独立 的 非 人 造 的 样本 ， 并 没有 真正 反映 实际 是 怎样 的 一 个 过 程 。 而 真正 的 商 
业 应 用 需要 从 不 同 部 门 收集 数据 。 例 如 ， 在 营销 研究 中 ， 需 要 从 销售 部 门 、 顾 客 账单 部 门 
和 顾客 服务 部 门 收 集 数 据 。 

将 不 同 的 数据 源 进 行 整 合 是 一 项 具有 挑战 性 的 工作 ， 虽 然 不 存在 深奥 的 原则 性 问题 ， 
但 是 处 理 起 来 却 很 棘手 。 因 为 不 同 的 部 门 也许 使 用 不 同 的 记录 形式 、 不 同 的 习惯 、 不 同 的 
时 间 段 、 不 同 的 数据 汇总 程度 、 不 同 的 主键 和 不 同 的 错误 形式 。 所 以 数据 必须 集中 、 整 合 
和 清理 。 大 型 数据 整合 的 思想 称 为 数据 仓库 (data warehousing) ， 数 据 仓库 提供 了 一 个 访 
问 成 组 数据 的 接口 ， 它 超越 了 部 门 的 界限 。 旧 数据 在 数据 仓库 中 以 商业 决策 借用 的 方式 发 
布 。 把 数据 转移 到 数据 仓库 将 证 实 一 个 事实 : 将 各 个 部 门 在 日 常 工 作 中 产生 的 一 些 部 门 级 
信息 聚集 起 来 后 ， 会 产生 出 巨大 的 战略 价值 。 显 而 易 见 ， 数 据 仓库 的 存在 是 数据 挖掘 工作 
的 一 个 非常 有 用 的 先决 条 件 ， 如 果 没 有 数据 仓库 ， 在 为 数据 挖掘 做 数据 准备 工作 时 ， 必 须 
采用 数据 仓库 所 包含 的 许多 数据 处 理 步 又 。 

通常 一 个 数据 仓库 所 含 的 数据 并 不 都 是 必需 的 ， 有 时 需要 越过 部 门 把 数据 和 相关 问题 
联系 起 来 分 析 。 例 如 ， 在 第 1 章 中 讲述 的 在 电力 负载 预测 里 考虑 天 气 数据 ， 以 及 在 市 场 和 
销售 应 用 中 考虑 人 口 统计 学 的 数据 。 这 些 数据 有 时 称 为 重 登 数据 (overlay data) ， 它 通常 
不 是 由 一 个 组 织 收集 的 ， 而 是 明显 与 数据 挖掘 问题 有 关 。 当 然 重 又 数据 也 必须 清理 ， 并 且 
要 与 其 他 已 经 收集 到 的 数据 进行 整合 。 

数据 整合 的 另 一 个 实际 问题 是 什么 程度 的 数据 整合 是 合理 的 。 当 奶牛 农场 主 决定 出 售 
哪些 牛 时 ， 牛 的 产 奶 量 记录 是 一 个 重要 的 决定 因素 。 每 条 牛 的 产 奶 量 由 一 个 自动 的 挤 奶 机 
圳 每 天 记录 两 次 ， 所 以 需要 将 数据 进行 合并 。 同 样 ， 当 电话 公司 研究 客户 行为 时 ， 有 些 电 
话 访问 的 原始 数据 是 不 会 用 到 的 ， 必 须 把 这 些 数据 整合 到 客户 层 。 数 据 是 按 月 使 用 还 是 按 
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季度 使 用 ， 或 者 推迟 几 个 月 或 几 个 季度 ? 选择 正确 的 数据 类 型 和 数据 整合 的 程度 通常 关系 
着 数据 挖掘 的 成 功 与 否 。 

因为 数据 整合 中 涉及 很 多 问题 ， 不 能 期 望 在 一 开始 就 取得 成 功 。 这 就 是 为 什么 数据 汇 
集 、 数 据 清理 、 数 据 整合 和 一 般 的 数据 准备 工作 需要 花费 很 长 时 间 。 


2.4.2 ARFF 格式 


现在 来 看 一 种 标准 的 数据 集 表 示 方 式 ， 叫 做 ARFF 文件 (ARFF file) 。 我 们 介绍 该 文 
件 的 普通 版 ， 实 际 上 还 有 一 种 叫做 XRFF 的 版 本 ， 如 名 字 所 示 ， 它 给 出 了 ARFF 文件 头 ， 
且 用 可 扩展 标记 语言 (XML) 给 出 了 实例 信息 。 

图 2-2 是 表 1-3 中 天 气 数 据 的 一 个 ARFF 文件 ， 这 个 版 本 的 一 些 属 性 是 数值 属性 。 
由 % 开 始 的 行 是 注释 行 。 在 文件 开始 处 紧 接着 文件 注释 的 是 关系 的 名 称 (weather) 和 一 组 
属性 的 定义 (outlook，temperature，humidity，windy，play?)。 在 名 目 属 性 后 面 括 号 里 的 是 
一 组 名 目 值 。 如 果 名 目 值 内 包含 空格 ， 必 须 加 引号 。 数 值 属 性 后 跟 一 个 关键 字 : numeric, 


% ARFF file for the weather data with some numeric features 
% 
@relation weather 


@attribute outlook { sunny, overcast, rainy } 
@attribute temperature numeric 

@attribute humidity numeric 

@attribute windy { true, false } 

@attribute play? { yes, no } 


@data 

$ 

% 14 instances 

% 

sunny, 85, , false, no 
sunny, 80, , true, no 
overcast, , 86, false, yes 
rainy, 70, , false, yes 
rainy, 68, , false, yes 
rainy, 65, , true, no 
overcast, , 65, true, yes 
sunny, 72, , false, no 
sunny, 69, , false, yes 
rainy, 75, , false, yes 
sunny, 75, , true, yes 


overcast, , 90, true, yes 
overcast, , 75, false, yes 
rainy, 71, , true, no 





图 2-2 天 气 数 据 的 ARFF 文件 


尽管 天 气 问 题 需要 从 其 他 属性 值 中 预测 类 值 : play?， 但 是 在 数据 文件 中 类 属性 与 其 他 
属性 并 没有 任何 区 别 。ARFTF 文件 格式 只 给 出 了 一 个 数据 集 ， 并 没有 指出 将 要 预测 哪些 属 
性 。 这 意味 着 可 以 在 同样 的 文件 上 考察 每 一 个 属性 究竟 能 否 从 其 他 属性 中 预测 出 ， 或 用 同 
样 的 文件 来 寻找 关联 规则 或 聚 类 。 

在 属性 定义 后 以 @ data 开始 的 行 ， 是 数据 集中 实例 数据 开始 的 标志 。 每 一 行 表示 一 个 
实例 ， 属 性 值 按照 属性 的 顺序 排列 ， 并 用 逗号 隔 开 。 如 果 有 缺失 值 ， 将 由 问号 表示 (在 这 
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个 数据 集 里 没有 缺失 值 ) 。 在 ARFF 文件 里 的 属性 说 明 可 以 用 来 检查 数据 ， 确 保 所 有 属性 
值 都 是 有 效 的 ， 数 据 检查 工作 可 以 由 读 和 人 ARFF 文件 的 程序 自动 完成 。 

除了 有 像 天 气 数据 中 存在 的 名 目 属性 和 数值 属性 外 ，ARFF 格式 还 有 其 他 三 种 属性 形 
式 : 字符 串 属 性 、 日 期 属性 和 赋值 关系 属性 。 字 符 串 属性 的 值 是 文本 。 如 果 需 要 定义 一 个 
叫 description 的 字符 串 属性 ， 应 该 用 如 下 形式 定义 : 

@attribute description string 

在 实例 数据 中 ， 可 以 用 引号 包括 任意 的 字符 串 〈 如 果 在 字符 串 里 包含 引号 ， 要 在 每 个 
引号 前 加 上 反 和 斜 线 “\”) 。 字 符 串 存储 在 一 个 字符 串 表 中 ， 并 由 它们 在 表 中 的 地 址 表示 。 
因此 含有 相同 字符 的 两 个 字符 串 将 拥有 相同 的 值 。 

字符 串 属性 包含 的 值 可 以 非常 长 ， 甚 至 可 以 是 一 个 文件 。 为 了 能 使 用 字符 串 属 性 进行 
文本 挖掘 ， 有 必要 对 它们 进行 处 理 。 例 如 ， 也 许可 以 将 一 个 字符 串 属 性 转换 成 大 量 的 数值 
属性 ， 字 符 串 中 的 每 一 个 单词 对 应 一 个 数字 ， 这 个 数字 是 单词 在 字符 串 中 出 现 的 次 数 。 此 
种 转换 方式 将 在 7.3 节 中 讨论 。 

日 期 属性 是 一 个 特殊 形式 的 字符 串 ， 用 以 下 方式 定义 (表示 一 个 叫 today 的 属性 ) : 

@attribute today date 
Weka 使 用 ISO-8601 标准 组 合 日 期 和 时 间 ， 格 式 为 : yyyy- MM- dd'T'HH: mm: ss， 用 4 位 数字 
表示 年 ， 分 别 用 2 位 数字 表示 月 和 日 ， 字 和 母 T 以 后 各 用 2 位 数字 表示 小 时 、 分 钟 和 秒 ?。 在 
文件 的 数据 部 分 ， 日 期 用 相应 的 日 期 和 时 间 的 字符 串 表 示 ， 例 如 “2004-04-03T12: 00: 00”。 
尽管 它们 被 表示 成 字符 串 ， 但 是 在 文件 读 人 时 ， 日 期 将 被 转换 成 数值 形式 。 日 期 也 可 以 内 部 
转换 成 多 种 不 同 的 格式 ， 所 以 在 数据 文件 里 可 以 使 用 绝对 时 间 惟 和 一 些 转换 方法 ， 以 形成 一 
天 中 的 时 间或 者 一 周 里 的 天 ， 从 而 便于 考察 阶段 性 的 行为 。 

关系 值 属性 不 同 于 其 他 类 型 属性 之 处 在 于 ， 它 允许 在 ARFF 格式 中 出 现 多 实例 问题 。 
关系 属性 的 值 是 一 个 单独 的 实例 集合 。 关 系 属性 在 定义 时 有 一 个 名 称 ， 其 类 型 为 relation- 
al， 并 伴 有 一 个 内 骨 的 属性 块 ， 这 个 属性 块 给 出 了 所 引用 实例 的 结构 。 举 例 来 说 ， 有 一 个 
BAR (bag) 的 关系 值 属性 ， 其 值 是 一 个 与 没有 play 属性 的 天 气 数据 具有 相同 结构 的 数 
据 集 ， 可 以 用 以 下 方式 表示 : 


@attribute bag relational 
@attribute outlook { sunny, overcast, rainy } 
@attribute temperature numeric 
@attribute humidity numeric 
@attribute windy { true, false } 
@end bag 


符号 @ end bag RAI AUR PEXRRUAS EE, Al 2-3 展示 了 一 个 描述 基于 天 气 数据 的 多 
实例 问题 的 ARFF 文件 。 在 这 个 例子 中 ， 每 一 个 样本 由 一 个 DD 号、 连续 两 个 来 自 原始 天 
气 数据 的 实例 ， 以 及 一 个 类 标号 组 成 。 

每 一 个 属性 值 包含 一 个 字符 串 ， 字 符 串 封装 了 两 个 由 “\n” 字 符 隔 开 的 天 气 实例 。 这 种 
形式 可 能 适合 于 那些 持续 两 天 的 运动 。 对 于 那些 具有 不 定 天 数 的 运动 (例如 ， 顶 级 板 球 赛 需 
要 3 ~5 天 的 时 间 )， 也 可 以 采用 与 上 例 相似 的 数据 集 。 不 过 要 注意 的 是 ， 在 多 实例 学 习 中 ， 
实例 的 顺序 通常 并 不 重要 。 算 法 也 许可 以 学 习 这 样 的 规则 : 如 果 要 开展 板 球 运动 ， 要 求 在 一 
段 时 间 内 没有 一 天 下 雨 并 且 至 少 有 一 天 是 晴天 ， 而 并 不 要 求 某 种 确定 的 天 气 事件 序列 。 





OQ Weka 包括 了 一 种 机 制 ， 该 机 制 通过 在 属性 定义 中 包含 一 个 特殊 字符 串 来 定义 不 同 格式 的 日 期 属性 。 
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$ Multiple instance ARFF file for the weather data 
% 
@relation weather 


@attribute bag_ID { 1, 2, 3, 4, 5, 6, 7 } 
@attribute bag relational 
@attribute outlook { sunny, overcast, rainy } 
@attribute temperature numeric 
@attribute humidity numeric 
@attribute windy { true, false } 
@end bag 
@attribute play? { yes, no } 


@data 
seven “multiple instance” instances 


“sunny, 85, 85, false\nsunny, 80, 90, true”, no 
“overcast, 83, 86, false\nrainy, 70, 96, false”, yes 
“rainy, 68, 80, false\nrainy, 65, 70, true”, yes 
“overcast, 64, 65, true\nsunny, 72, 95, false”, yes 
"sunny, 69, 70, false\nrainy, 75, 80, false", yes 
“sunny, 75, 70, true\novercast, 72, 90, true”, yes 
“overcast, 81, 75, false\nrainy, 71, 91, true”, yes 


% 

% 

% 

1, 
2, 
3, 
4, 
5, 
6, 
d, 





2-3. 天气 数据 的 多 实例 ARFF 格式 文件 


2.4.3 稀疏 数据 


有 时 大 部 分 实例 的 很 多 属性 值 是 0。 例 如 ， 记 录 顾 客 购物 情况 的 购物 篮 数 据 ， 不 管 购 
物 清单 有 和 多大， 顾客 购买 的 商品 都 只 占 超市 所 提供 的 一 小 部 分 。 购 物 篮 数据 记录 了 顾客 所 
购买 的 每 种 商品 的 数量 ， 除 此 以 外 几乎 所 有 库存 商品 的 数量 都 是 0。 数 据 文件 可 以 看 成 一 
个 由 行 和 列 分 别 表示 顾客 和 所 存储 商品 的 矩阵 ， 这 个 矩阵 是 稀 朴 矩阵 ， 几 乎 所 有 的 项 都 是 
0。 田 一 个 例子 出 现在 文本 挖掘 中 ， 这 里 的 实例 是 文档 。 而 矩阵 行 和 列 分 别 表示 文档 和 单 
词 ， 用 数字 表示 一 个 特定 的 单词 在 特定 文档 中 出 现 的 次 数 。 由 于 大 部 分 文档 的 词汇 量 并 不 
大 ， 所 以 很 多 项 也 是 0。 

明确 地 表示 一 个 稀 芍 矩阵 的 每 一 项 并 不 实际 。 下 面 按 序 表示 每 个 属性 值 : 

0, X 


; 0, 0, 0, 0, Y, 0, 0, O0, "class A* 
0, 0, 0, Ww, 0, 0, 0, 0, O, O; "class B" 


作为 代替 的 另 一 种 表示 方法 是 将 非 0 值 属 性 用 它 的 属性 位 置 和 值 明确 标 出 。 如 : 
(1X, 6 Y, 10 "class A") 
(3 W, 10 "class B") 


收集 每 一 个 非 0 值 属性 的 索引 号 〈 索 引 从 0 开始 ) 和 属性 值 ， 并 将 每 一 个 实例 包含 在 
大 括号 里 。 在 ARFF 文件 格式 里 ， 稀 疏 数据 文件 包含 相同 的 @ relation 和 @ attribute 标签 ， 
紧 接着 是 一 个 @ data 行 ， 但 数据 部 分 的 表示 方法 不 同 ， 如 以 上 所 示 的 一 样 在 大 括号 内 用 属 
性 说 明 表示 。 注 意 省 略 的 值 都 是 0， 它 们 并 不 是 “缺失 ” 值 ! 如 果 存 在 一 个 未 知 值 ， 它 必 
须 用 一 个 问号 明确 地 表示 出 来 。 


2.4.4 属性 类 型 
ARFF 文件 格式 允许 两 种 基本 数据 类 型 : 名 目 型 和 数值 型 。 字 符 串 和 日 期 实际 上 也 分 
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别 是 名 目 值 和 数量 值 ， 尽 管 字符 串 在 使 用 以 前 通常 需要 转换 成 数值 形式 ， 如 单词 向 量 。 关 
系 值 属性 包含 单独 的 实例 集 ， 这 些 实例 集 有 各 自 的 基本 属性 ， 如 数值 型 和 名 目 型 。 但 是 对 
两 种 基本 类 型 的 诠释 方法 取决 于 所 使 用 的 机 器 学 习 方 案 。 例 如 ， 很 多 机 器 学 习 方案 把 数值 
属性 作为 有 序 的 刻度 处 理 ， 并 且 仅 在 数值 间 进 行 小 于 和 大 于 的 比较 。 然 而 ， 另 一 些 方案 将 
它们 作为 比率 值 处理 ， 并 且 使 用 距离 计算 。 所 以 将 数据 用 于 数据 挖掘 以 前 ， 要 理解 机 器 学 
习 方 法 的 工作 原理 。 ' 

如 果 机 器 学 习 方 案 处 理 数值 属性 是 用 比率 值 度量 的 ， 将 会 引出 一 个 规范 化 的 问题 。 属 
性 值 通常 被 规范 化 到 一 个 固定 的 范围 ， 如 从 0 ~1， 把 所 有 的 值 除 以 所 有 出 现 的 值 中 最 大 的 
一 个 ， 或 者 先 减 去 一 个 最 小 值 ， 然 后 除 以 最 大 值 和 最 小 值 之 差 。 另 一 个 规范 化 技术 是 计算 
属性 值 的 统计 平均 值 和 标准 差 ， 把 每 一 个 值 减 去 统计 平均 值 后 除 以 标准 差 。 这 个 过 程 称 为 
将 一 个 统计 变量 标准 化 ， 并 且 所 得 到 的 是 平均 值 是 0， 标 准 差 是 1 的 值 的 集合 。 

有 些 机 器 学 习 方 案 ， 如 基于 实例 的 和 回归 方法 的 ， 只 能 处 理 比 率 值 ， 因 为 它们 根据 属 
性 的 值 计 算 两 个 实例 之 间 的 “距离 "。 如 果实 际 值 是 有 序 的 ， 必 须 定 义 一 个 数值 距离 公式 。 
一 种 处 理 方法 是 使 用 两 层 的 距离 : 1 表示 两 个 值 不 同 , 0 表示 相同 。 任 何 名 目 值 都 能 够 作 
为 数值 用 距离 公式 处 理 。 但 它 是 一 个 有 点 儿 粗 糙 的 技术 ,掩盖 了 实例 间 真 正 不 同 的 程度 。 
男 一 种 可 行 的 方法 是 为 每 一 个 名 目 属性 建立 合成 的 二 元 属性 。 有 关内 容 将 在 6.6 节 使 用 决 
策 树 进行 数值 预测 时 讨论 。 

有 时 名 目 值 和 数值 量 之 间 存 在 真正 的 映射 关系 。 例 如 ， 邮 政 编码 指定 的 区 域 可 以 用 地 
理 坐 标 来 表示 ; 电话 号 码 的 前 几 位 也 有 相同 功能 ， 它 与 所 在 的 区 域 相 关 。 学 生 证 号 码 的 前 
两 位 数 也 许 是 学 生 入 学 的 年 份 。 

实际 的 数据 集 普 遍 存在 名 目 值 作为 整数 编码 的 情形 。 例 如 ， 一 个 整数 形式 的 标识 符 也 
许 用 来 作为 一 个 属性 的 代码 ， 如 零件 号 码 , 但 是 这 些 整 数值 不 能 用 于 小 于 或 大 于 的 比较 。 
如 果 是 这 样 ， 明 确 指 出 属性 是 名 目 型 而 不 是 数值 型 是 非常 重要 的 。 

把 一 个 有 序 值 作为 名 目 值 处 理 是 可 行 的 。 实 际 上 ， 许 多 机 器 学 习 方 案 只 处 理 名 目 值 。 
例如 ， 在 隐形 眼镜 问题 里 ， 年 龄 属性 就 是 作为 名 目 值 处 理 的 ， 产 生 的 一 部 分 规则 如 下 : 


If age = young and astigmatic - no 
and tear production rate = normal 





then recommendation = soft 

If age = pre-presbyopic and astigmatic = no 
and tear production rate = normal 
then recommendation = soft 


但 事实 上 ， 年 龄 〈 特 别 是 这 种 形式 的 年 龄 ) 是 一 个 真正 的 有 序 值 ， 可 以 用 以 下 方式 
表示 : 


young < pre-presbyopic < presbyopic 


如 果 将 它 作 为 有 序 值 对 待 ， 那 么 上 面 两 条 规则 就 可 以 合并 成 一 个 : 


If age € pre-presbyopic and astigmatic = no 


and tear production rate - normal 

then recommendation - soft 
这 是 一 个 更 紧凑 、 更 令 人 满意 的 表示 相同 含义 的 方法 。 
2.4.5 缺失 值 


实际 中 遇 到 的 很 多 数据 集 都 包含 缺失 值 ， 例 如 表 1-6 中 的 劳资 协商 数据 。 缺 失 值 通常 
是 指 超出 正常 范围 ， 可 能 会 在 正常 值 是 正 数 的 位 置 出 现 一 个 负数 〈 如 -1) ， 或 在 正常 情况 
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下 不 可 能 出 现 0 值 的 位 置 出 现 0。 对 于 名 目 属性 ， 缺 失 值 可 能 会 由 空格 或 横 线 表示 。 如 果 
需要 对 不 同形 式 的 缺失 值 加 以 区 别 (如 未 知 、 未 记录 、 无 关 值 )， 可 以 用 不 同 的 负 整 数 表 
示 ( -1、-2 等)。 

必须 仔细 研究 数据 中 缺失 值 的 意义 。 缺 失 值 的 出 现 有 多 种 原因 。 例 如 ， 测 量 设备 出 现 
故障 ， 在 数据 收集 过 程 中 改变 了 试验 方法 ， 整 理 几 个 相似 但 不 相同 的 数据 集 。 被 访问 者 在 
访问 中 也 许 会 拒绝 回答 某 些 问 题 ， 如 年 龄 或 收入 。 在 考古 研究 领域 ,一 个 样本 ， 如 一 个 头 
盖 骨 被 损坏 了 ， 导 致 某 些 参数 不 能 测 出 。 在 生物 学 研究 领域 ， 所 有 参数 在 测量 以 前 ， 植 物 
或 动物 就 已 经 死 了 。 这 些 情 况 的 出 现 对 纳入 考虑 之 中 的 样本 意味 着 什么 ?” 也 许 头 盖 骨 的 损 
坏 有 某 种 意义 ， 或 者 仅仅 是 随机 的 事件 ? 植物 已 死去 这 个 事实 有 意义 或 者 无 意义 ? 

大 多 数 机 器 学 习 方 案 隐 含 地 假设 : 一 个 实例 的 某 个 属性 值 缺 失 并 没有 特别 意义 ， 这 个 
值 只 是 未 知 而 已 。 然 而 ， 这 个 值 为 什么 缺失 也 许 会 有 一 个 很 好 的 理由 ， 可 能 是 基于 所 了 解 
的 信息 而 做 出 的 决策 ， 不 执行 某 些 特定 测试 。 如 果 是 这 样 ， 这 其 中 提供 的 关于 实例 的 信息 
要 比 仅仅 了 解 有 缺失 值 这 个 事实 多 得 多 。 如 果 是 这 样 ， 也 许 将 属性 的 可 能 值 记 录 为 未 测试 
更 妥当 ， 也 可 将 它 作为 数据 集中 的 另 一 个 属性 。 上 面 的 例子 说 明 ， 只 有 熟悉 数据 的 人 才能 
做 出 明智 的 判断 : 一 个 特定 值 的 缺失 是 否 存在 一 些 特别 的 意义 ， 是 否 应 该 将 它 作 为 一 个 一 
般 的 缺失 值 进行 处 理 。 当 然 ， 如 果 存 在 多 种 类 型 的 缺失 值 ， 那 就 意味 着 出 现 了 异常 状况 ， 
需要 调查 具体 原因 。 

如 果 缺 失 值 意味 着 一 个 操作 员 曾 经 决定 不 进行 一 个 特定 的 测量 ， 那 么 它 将 传达 出 比 这 
个 值 是 未 知 的 这 个 事实 更 多 的 信息 。 例 如 ， 人 们 在 分 析 医 学 数据 库 时 已 经 注意 到 ， 一般 情 
况 下 病情 的 诊断 是 按照 医生 决定 做 的 检查 的 结果 ,但 是 有 时 修 ， 医 生 不 需要 知道 检查 结果 
就 可 以 做 出 诊断 。 这 种 情况 下 ， 带 有 某 些 缺失 值 的 记录 是 做 一 个 完整 诊断 所 需要 的 全 部 ， 
那些 实际 值 可 以 被 完全 忽略 。 


2.4.6 不 正确 的 值 


仔细 检查 数据 挖掘 文件 从 中 找 出 不 良 的 属性 和 属性 值 是 非常 重要 的 工作 。 数 据 挖掘 中 
使 用 的 数据 并 不 是 为 了 数据 挖掘 而 收集 的 。 在 最 初 收集 数据 时 ， 数 据 的 某 些 方面 可 能 并 不 
重要 ， 所 以 留 下 空白 或 没有 被 检查 。 由 于 这 样 不 会 对 收集 数据 的 初衷 造成 任何 影响 ， 所 以 
不 用 更 正 它 。 然 而 ， 当 这 个 数据 库 用 于 数据 挖掘 时 ， 错 误 和 省 略 的 部 分 立刻 变 得 相当 重 
要 。 例 如 ， 银 行 并 不 真正 需要 知道 客户 的 年 龄 ， 所 以 它们 的 数据 库 中 也 许 会 存在 许多 缺失 
或 不 正确 的 (有 关 年 龄 的 ) 值 。 但 是 在 由 数据 挖掘 得 到 的 规则 中 ， 年 龄 也 许 会 成 为 一 个 非 
常 重要 的 特性 。 

数据 集 的 印刷 错误 显然 会 造成 不 正确 的 值 。 通 常 表现 为 名 目 属性 的 值 被 拼 错 ， 这 将 为 
名 目 属性 制造 一 个 额外 的 值 。 或 者 不 是 拼 错 ， 而 是 一 个 同义词 ， 如 百事 和 百事 可 乐 。 很 明 
显 ， 一 个 事先 定义 的 格式 ， 如 ARFF 格式 的 优势 在 于 可 以 检查 数据 文件 以 保证 数据 内 部 的 
连贯 性 。 然 而 ， 在 原 数据 文件 中 出 现 的 错误 通常 会 经 过 转换 过 程 保 存 到 用 于 数据 挖掘 的 文 
件 里 。 因 此 每 一 个 属性 所 拥有 的 可 能 值 的 列表 都 应 该 仔细 检查 。 

印刷 或 测量 在 数值 上 造成 的 错误 通常 会 导致 超出 取 值 范畴 的 值 ， 可 以 通过 一 次 取 一 个 
变量 进行 绘图 的 方法 检查 错误 。 错 误 的 值 往往 会 远离 一 个 由 其 余 的 值 构成 的 模式 。 当 然 ， 
有 时 候 要 找 出 错误 值 是 困难 的 ， 尤 其 是 在 一 个 不 熟悉 的 知识 领域 里 。 
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重复 的 数据 是 另 一 种 错误 源 。 如 果 数 据 文件 中 的 一 些 实例 是 重复 的 ， 那 么 很 多 机 器 学 
习 工 具 将 会 产生 不 同 的 结果 ， 因 为 重复 将 对 结果 产生 很 多 影响 。 

人 们 在 向 数据 库 输 入 个 人 数据 时 常常 会 故意 制造 一 些 错误 。 他 们 也 许 会 在 拼写 他 们 的 地 
名 时 做 一 些小 的 改动 ， 试 图 确认 他 们 的 信息 是 否 会 被 出 售 给 广告 商 ， 而 使 他 们 收 到 大 量 的 垃 
圾 邮件 。 如 果 以 前 一 些 人 的 保险 申请 曾经 被 拒绝 过 ， 也 许 他 们 会 在 再 次 申请 保险 时 修正 他 们 
名 字 的 拼写 。 严 格 的 计算 机 化 的 数据 输入 系统 通常 强制 性 地 要 求 输入 一 些 信 息 。 例 如 ， 一 个 
外 国人 在 美国 租车 时 ， 计 算 机 坚持 要 他 在 美国 的 邮政 编码 。 可 是 他 来 自 其 他 国家 ， 根 本 没有 
美国 的 邮政 编码 。 万 般 无 奈 之 下 ， 操 作 人 员 建 议 他 使 用 租车 公司 的 邮政 编码 。 如 果 这 是 很 普 
遍 的 做 法 ， 那么 在 以 后 的 数据 挖掘 中 将 出 现 一 群 客户 的 地 址 和 租车 公司 在 同一 区 域 。 

同样 ， 超 市 收银 员 有 时 会 在 顾客 不 能 提供 购物 卡 时 使 用 他 们 自己 的 购物 卡 ， 为 了 让 顾 
客 得 到 折扣 ， 或 者 只 是 为 了 在 出 纳 员 的 账户 上 增加 信用 积分 。 只 有 深入 了 解 有 关 的 背景 知 
识 ， 才 能 够 解释 如 上 所 示 的 系统 性 的 数据 错误 。 

最 后 ， 数 据 也 存在 有 效 期 。 随 着 周围 情况 的 变化 ， 数 据 也 会 发 生变 化 。 例 如 ， 邮 件 列 
表 里 的 姓名 、 地 址 、 电 话 号 码 等 项 就 经 常会 发 生变 化 。 所 以 在 数据 挖掘 里 需要 考虑 用 于 控 
掘 的 数据 是 否 依然 有 效 。 


2.4.7 了 解数 据 


在 数据 挖掘 中 有 必要 加 强 对 数据 的 理解 。 一 些 可 以 显示 名 目 属性 值 的 柱状 分 布 图 和 数 
值 属性 值 的 分 布 图 〈 也 许 将 实例 进行 排序 ， 或 绘图 ) 的 简单 工具 都 有 助 于 理解 数据 。 用 图 
形 的 方式 将 数据 可 视 化 能 够 方便 地 鉴别 出 离 群 值 ， 是 一 个 很 好 的 表示 数据 文件 中 错误 的 方 
法 ， 也 为 非 正常 情况 的 编码 提供 了 很 大 的 便利 。 如 用 9999 表示 缺失 的 年 或 者 -1kg KIR Ik 
失 的 重量 ， 人 们 并 没有 提供 这 些 表示 法 的 说 明 。 还 需要 与 领域 专家 商量 来 解释 异常 值 、 缺 
失 值 ， 以 及 那些 用 整数 表示 范畴 而 不 是 真正 数量 值 的 重要 性 等 。 将 属性 值 两 两 进行 坐标 投 
影 ， 或 者 将 各 个 属性 与 对 应 的 类 值 进行 坐标 投影 都 将 有 助 于 对 数据 的 理解 。 

数据 清理 是 一 个 费时 费力 的 过 程 ， 但 却 是 成 功 的 数据 挖掘 所 绝对 必要 的 。 人 们 经 常 放 
弃 一 些 大 型 的 数据 集 ， 就 是 因为 它们 没有 可 能 完全 核对 数据 。 或 者 ， 可 以 抽取 一 些 实例 并 
仔细 研究 ， 从 中 可 以 得 到 惊人 的 发 现 。 所 以 花 一 些 时 间 来 审视 数据 是 值得 的 。 


2.5 补充 读物 


Pyle (1999) 为 数据 挖掘 提供 了 一 个 详尽 的 数据 准备 的 指南 。 现 在 许多 人 对 数据 仓库 
和 它 所 呈现 出 来 的 问题 很 感 兴趣 。 据 我 们 所 知 ，Kimball 和 Ross (2002) 对 此 类 问题 做 的 
阐述 是 最 好 的 。Cabena 等 (1998) 认为 数据 准备 的 工作 量 在 一 个 数据 挖掘 应 用 中 占 6096 , 
他 们 也 谈 到 其 中 所 包含 的 一 些 问 题 的 工作 量 。 

Bergadano 和 Gunetti (1996) 对 处 理 有 限 和 无 限 关 系 的 归纳 逻辑 编程 进行 了 研究 。Ste- 
vens (1946) 引入 了 有 关 属 性 的 不 同 “ 测 量 等 级 ”的 概念 ， 并 且 在 统计 包 ， 如 SPSS, fH 
关 和 手册 里 进行 了 详尽 的 阐述 (Nie ^$, 1970), 

Dietterich “ (1997) 介绍 了 原始 的 、 特 定 意义 上 的 多 实例 学 习 场 景 ， 它 由 药物 活性 
预测 问题 得 来 。2. 1 节 开 始 部 分 提 到 的 多 类 别 实 例 问 题 是 另 一 种 不 同 的 场景 。Read 等 
(2009) 讨论 了 一 些 方法 以 便 用 标准 分 类 算法 来 处 理 这 些 问 题 。 


[59 | 





[ 60 | 











61 








第 3 章 | 


Data Mining: Practical Machine Learning Tools and Techniques, Third Edition 


输出 : 知识 表达 





本 书 提供 的 大 部 分 数据 挖掘 技术 能 产生 出 一 些 容易 理解 的 描述 ， 这 些 描述 是 关于 数据 
中 的 结构 模式 。 在 了 解 这 些 数据 挖掘 技术 是 如 何 工作 以 前 ， 首 先 必须 知道 数据 中 的 结构 模 
式 是 如 何 表达 的 。 机 器 学 习 所 能 发 现 的 模式 有 许多 不 同 的 表达 方式 ， 每 一 种 方式 就 是 一 种 
推断 数据 输出 结构 的 技术 。 一 旦 理解 了 输出 结构 的 表示 方法 ， 就 向 理解 数据 输出 结构 是 如 
何 产生 的 前 进 了 一 大 步 。 

第 1 章 给 出 了 很 多 数据 挖掘 的 例子 。 这 些 例子 的 输出 采用 的 形式 是 决策 树 和 分 类 规 
则 ， 这 是 许多 机 器 学 习 方 法 所 采用 的 基本 知识 表达 形式 。 对 决策 树 或 者 规则 的 集合 而 言 ， 
知识 是 一 个 名 不 副 实 的 词 ， 这 里 用 这 个 词 并 不 意味 着 我 们 想 要 暗示 这 些 结 构 胜 过 浮现 在 我 
们 脑海 里 的 真正 的 知识 ， 只 是 需要 用 一 个 词 描绘 由 机 器 学 习 方 法 产生 的 结构 。 在 一 些 更 加 
复杂 的 规则 中 人 允许 使 用 例外 ， 可 以 表示 不 同 实例 的 各 个 属性 值 之 间 的 关系 。 正 如 我 们 在 第 
1 章 中 所 提 到 的 ， 有 些 问题 中 的 类 别 是 数值 型 的 ， 处 理 这 些 问题 的 传统 方法 是 使 用 线性 模 
型 。 线 性 模型 还 可 以 适用 于 处 理 二 分 类 问题 。 此 外 ， 一 些 特殊 形式 的 树 能 进一步 用 于 数值 
预测 。 基 于 实例 的 表达 方法 则 着 重 于 研究 实例 本 身 ， 而 不 需要 像 规 则 一 样 ， 分 析 实 例 的 属 
性 值 。 最 后 ， 还 有 一 些 机 顺 学 习 方法 会 产生 出 一 些 实例 的 聚 类 。 这 些 不 同 的 知识 表达 方法 
是 与 第 2 章 中 介绍 的 不 同 机 器 学 习 问 题 相对 应 的 。 


3.1 表 


表示 机 絮 学 习 输 出 结构 的 最 简单 、 最 基本 的 方法 是 采用 与 输入 相同 的 形式 一 一 表 
(table) 。 例 如 ， 表 1-2 是 一 个 天 气 数据 的 决策 表 ， 只 需要 从 中 寻找 一 些 适合 的 条 件 来 确定 
是 否 玩 。 当 然 这 个 过 程 也 可 以 用 于 数值 预测 问题 ， 这 种 情况 下 ， 结 构 有 时 就 是 一 个 回归 表 
(regression table) 。 为 了 更 简单 些 ， 建 立 一 个 决策 表 或 者 回归 表 也 许 需 要 涉及 属性 选择 的 
问题 。 例 如 ， 如 果 温 度 属 性 和 决策 无 关 ， 形 成 更 小 的 、 扼 要 的 表 就 是 一 个 很 好 的 决策 表 。 
当然 关键 问题 是 确定 去 除 哪 些 属 性 而 不 会 影响 最 终 的 决策 。 


3.2 线性 模型 


另 一 个 简单 的 表达 形式 是 线性 模型 (linear model), ， 其 输出 仅仅 是 属性 值 的 总 和 ， 当 
然 如 果 属 性 值 各 有 权重 ， 则 需要 加 权 求 和 和。 赋 权 的 诀窍 在 于 赋 权 后 得 到 的 输出 结果 能 尽量 
好 地 接近 希望 达到 的 输出 结果 。 这 里 ， 输 出 和 输入 的 属性 值 都 是 数值 型 。 统 计 学 家 采用 回 
Ja (regression) 这 个 词 来 表示 预测 数值 型 变量 的 过 程 ， 回 归 模 型 (regression model) 是 这 
类 线性 模型 的 术语 之 一 。 遗 憾 的 是 ， 回 归 这 个 词 通 常 的 意思 是 返回 到 之 前 的 状态 ， 这 与 它 
在 这 里 的 术语 意思 并 没有 直观 的 联系 。 

线性 模型 可 以 非常 容易 地 被 可 视 化 为 一 张 2 维 平面 图 ， 相 当 于 在 一 系列 数据 点 中 画 一 
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条 直线 。 图 3-1 显示 的 一 条 直线 对 应 于 曾 出 现在 第 1 章 中 的 CPU 性 能 数据 (ILK 1-5), 
其 中 输入 数据 只 有 cache (RF) 属性 。 1250 
纵 坐 标 上 显示 的 是 performance (性 能 ) 
属性 ， 横 坐标 上 是 cache 大 小 ,它们 都 是 799 
数值 型 数据 。 直 线 代表 了 “最 佳 拟 合 ” 。 
预测 等 式 ， g 
PRP = 37.06 +2.47 CACH 500 

给 定 一 个 测试 实例 ， 可 以 通过 将 观察 
得 到 的 缓存 大 小 代入 等 式 得 到 预测 的 per- e 
formance。 在 这 个 等 式 中 包含 了 一 个 常量 
“偏差 ”(37.06) 以 及 cache 的 权重 (2.47)。 0 50 100 150 200 250 300 
当然 ， 线 性 模型 可 以 扩展 为 多 属性 值 ， 只 cia 
需 对 每 一 个 属性 的 权重 以 及 偏差 进行 赋值 ， E341 CHUHESENGEIG REHE 
它们 就 能 很 好 地 拟 合 了 训练 数据 。 

线性 模型 也 可 以 应 用 到 二 元 分 类 问 
题 。 这 时 ， 那 条 由 模型 产生 的 直线 将 数 
据 分 为 两 类 : 这 条 直线 显示 了 伴随 两 种 
数据 值 变化 而 发 生 改 变 的 决策 结果 。 这 
样 的 一 条 直线 也 常 称 为 决策 边界 ( deci- 
sion boundary) 。 图 3-2 显示 了 这 样 一 条 
决策 边界 ， 它 将 竟 尾 花 数据 分 成 两 种 类 
型 [ris setosas 和 Iris versicolors, iX H, 
利用 两 种 输入 属性 : 花瓣 长 度 和 花瓣 宽 
度 来 绘制 数据 图 ， 那 条 代表 决策 边界 的 Petal Length 
直线 是 关于 这 两 种 属性 值 的 函数 。 位 于 图 3-2 将 Tris setosas 和 Iris versicolors 
直线 上 的 点 满足 如 下 的 等 式 : 分 开 的 一 条 线性 决策 边界 

2.0 -0. SPETAL LENGTH - 0. 8PETAL WIDTH =0 

与 前 面 的 例子 一 样 ， 给 定 一 个 测试 实例 ， 就 能 通过 将 观察 属性 值 代入 表达 式 而 实现 预 
测 。 不 同 的 是 ， 在 这 个 例子 中 ， 我 们 通过 判断 结果 大 于 或 等 于 0 (此 时 是 Iris setosa) 或 是 小 
FO (Iris versicolor) 来 实现 营 尾 花 的 种 类 预测 。 同 样 ， 这 个 模型 也 能 扩展 成 具有 多 属性 值 的 
情况 ， 只 是 原来 的 2 维 决策 边界 将 变 为 更 高 维 的 决策 平面 ， 甚 至 是 超 平面 。 这 种 情况 下 就 需 
要 通过 训练 数据 对 各 属性 值 的 权重 进行 赋值 ， 以 得 到 正确 的 超 平面 对 数据 进行 分 类 。 

在 图 3-1 和 图 3-2 中 ， 我 们 可 以 使 用 不 同 的 方法 得 到 不 同 的 属性 权重 ， 从 而 通过 改变 
属性 权重 来 改变 直线 的 位 置 和 方向 。 图 3-1 中 的 权重 是 由 一 种 称 为 最 小 二 乘 线性 回归 
(least squares linear regression) 的 方法 得 到 的 ; 图 3-2 中 的 权重 是 由 感知 器 训练 规则 (per- 
ceptron training rule) 得 到 的 。 这 两 种 方法 都 将 在 第 4 章 中 介绍 。 


3.3 树 
一 个 从 独立 实例 集 学 习 的 “分 治 ”方法 ， 自 然 得 到 一 个 称 为 决策 树 (decision tree) 的 
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表达 形式 。 我 们 已 经 看 到 了 一 些 决策 树 的 例子 ， 如 隐形 眼镜 ( 见 图 1-2) 和 劳资 协商 ( 见 
图 1-3) 数据 集 。 决 策 树 上 的 结 点 包含 了 对 某 个 特定 属性 的 测试 。 一 般 来 说 ， 在 一 个 结 点 上 
的 测试 是 将 一 个 属性 值 与 一 个 常量 进行 比较 。 然 而 ， 有 些 树 结 点 上 的 测试 是 在 两 个 属性 之 间 
进行 比较 ， 或 者 使 用 一 个 包含 一 个 或 多 个 属性 的 函数 公式 进行 比较 。 叶 子 结 点 对 所 有 到 达 叶 
子 的 实例 给 出 一 个 分 类 ， 或 者 一 组 分 类 ， 或 者 一 个 包括 了 所 有 可 能 分 类 的 概率 分 布 。 当 对 一 
个 未 知 实例 进行 分 类 时 ， 将 根据 在 各 个 连续 结 点 上 对 未 知 实例 的 属性 值 的 测试 结果 ， 自 上 而 
下 地 从 树 上 寻找 出 一 条 路 径 ， 当 实例 到 达 叶 子 时 ， 实 例 的 分 类 就 是 叶子 所 标注 的 类 。 

如 果 在 一 个 结 点 上 测试 的 属性 是 名 目 属性 ， 那 么 在 这 个 结 点 之 下 产生 的 分 支 的 个 数 就 
是 这 个 名 目 属 性 所 有 可 能 属性 值 的 个 数 。 这 种 情况 下 ， 因 为 每 个 可 能 的 名 目 属 性 值 对 应 一 
个 分 支 ， 所 以 相同 的 名 目 属 性 将 不 会 在 以 后 的 建树 过 程 中 再 次 被 测试 。 而 有 些 时 候 ， 和 名目 
属性 值 被 分 成 两 个 子 集 ， 那 么 就 只 能 产生 两 个 分 支 ，( 实 例 的 分 配 ) 取决 于 属性 值 所 在 的 
子 集 。 这 种 情况 下 ,一 个 名 目 属 性 也 许 会 在 一 条 路 径 上 不 止 一 次 地 被 测试 。 

如 果 属 性 是 数值 属性 ， 那 么 在 一 个 结 点 上 的 测试 通常 是 判断 这 个 数值 是 否 大 于 或 者 小 
于 某 一 个 事先 定义 的 常量 ， 给 出 一 个 二 又 分 裂 。 或 者 也 可 能 使 用 三 叉 分 裂 ， 将 会 出 现 多 个 
不 同 的 可 能 性 。 如 果 把 缺失 值 也 作为 一 个 独立 的 属性 值 看 待 ， 那 么 将 会 产生 出 第 三 个 分 
支 。 对 于 一 个 整数 的 数值 属性 的 另 一 种 处 理 方法 ， 是 用 小 于 、 等 于 和 大 于 实行 三 又 分 裂 。 
而 对 于 实数 值 的 数值 属性 来 说 ， 等 于 操作 并 没有 实际 意义 ， 所 以 在 实数 上 的 测试 应 该 是 用 
一 个 区 间 而 不 是 一 个 常量 ， 同 样 也 可 以 用 落 在 区 间 以 下 、 区 间 内 和 区 间 以 上 的 判断 实行 三 
叉 分 裂 。 一 个 数值 属性 通常 要 在 给 出 的 任何 一 条 从 树 根 到 叶子 的 路 径 上 被 测试 多 次 ， 每 一 
次 测试 都 会 采用 一 个 不 同 的 常量 。6. 1 节 将 详细 讨论 处 理 数 值 属性 的 方法 。 

缺失 值 是 一 个 显而易见 的 问题 : 当 在 一 个 结 点 上 所 测试 的 属性 值 缺 失 时 ， 就 不 能 确定 
应 该 将 它 分 配 到 哪个 分 支 上 。 正 如 2. 4 节 所 讨论 的 ， 有 时 将 缺失 值 作为 属性 的 一 个 独立 值 
来 处 理 。 否 则 就 应 该 采用 一 个 特殊 的 缺失 值 的 处 理 方法 ， 而 不 是 仅仅 把 缺失 值 当 做 属性 可 
能 拥有 的 另 一 个 可 能 值 。 一 个 简单 的 解决 方法 是 记录 训练 集中 到 达 每 个 分 支 的 实例 数量 ， 
如 果 一 个 测试 实例 的 值 缺 失 ， 就 将 它 分 配 到 获得 最 多 实例 的 那个 分 支 上 。 

一 个 更 成 熟 的 解决 方法 是 将 实例 分 裂 成 几 个 部 分 ， 然 后 分 别 将 它们 分 配 到 下 面 的 每 个 
分 支 上 ， 并 且 由 此 向 下 ， 直 到 到 达 子 树 所 包含 的 叶子 。 分 裂 过 程 采 用 0 ~1 之 间 的 权 值 来 
完成 ， 一 个 分 支 所 拥有 的 权 值 与 到 达 这 个 分 支 的 训练 实例 成 比例 ， 所 有 权 值 之 和 为 1。 一 
个 加 权 的 实例 也 许 在 较 低 的 结 点 上 会 再 次 分 裂 。 最 后 ， 实 例 的 不 同 部 分 将 分 别 到 达 叶 子 结 
点 ， 到 达 叶 子 结 点 后 的 实例 分 类 的 决策 ， 必 须 由 渗透 到 叶子 结 点 的 权 值 重新 组 合 后 产生 。 
6. 1 节 将 介绍 这 部 分 内 容 。 

目前 本 书 已 经 给 出 了 决策 树 的 描述 ， 它 可 以 通过 将 某 些 属性 的 值 与 一 个 常量 进行 比较 
从 而 在 结 点 处 对 数据 进行 划分 。 决 策 树 是 一 种 最 为 常用 的 方法 。 若 使 用 两 个 输入 属性 在 两 
个 维度 上 将 决策 树 进 行 可 视 化 ， 比 较 一 个 属性 值 与 一 个 常量 的 值 就 可 以 将 数据 从 平行 于 该 
轴 的 方向 进行 划分 。 但 实际 上 还 存在 其 他 的 可 能 性 。 有 些 树 采用 将 两 个 属性 与 另 一 个 属性 
进行 比较 ， 还 有 一 些 树 则 计算 多 个 属性 的 函数 。 例 如 ， 使 用 前 面 小 节 中 所 描述 的 超 平面 得 
到 一 个 并 不 平行 于 某 个 轴 的 倾斜 分 制 。 与 线性 模型 一 样 ， 函 数 树 (functional tree) 也 可 以 
在 叶子 结 点 得 到 可 用 于 预测 的 倾斜 分 割 。 树 中 的 某 些 结 点 还 可 以 指定 不 同属 性 的 其 他 分 
割 ， 尽 管 树 的 构建 者 还 不 能 决定 选择 哪个 属性 。 在 进行 分 类 时 ， 若 属性 看 起 来 都 是 同样 的 
有 用 ， 那 么 上 面 的 方法 就 非常 有 用 。 这 样 的 结 点 就 叫做 选项 (option) 结 点 ， 在 对 未 知 的 
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实例 进行 分 类 时 ， 该 实例 会 符合 所 有 从 选项 结 点 得 到 的 分 支 。 这 就 意味 着 该 实例 最 后 可 能 | 


形成 多 个 叶子 ， 给 出 多 个 可 能 的 预测 值 ， 这 些 值 可 以 通过 如 多 数 投票 的 方式 来 进行 整合 

对 一 个 数据 集 进行 手动 建树 是 具有 启发 性 的 ， 甚 至 是 很 有 趣 的 。 为 了 有 效 地 建树 ， 需 
要 有 一 种 观察 数据 的 好 方法 ， 因 为 通过 观察 可 以 判断 哪个 属性 有 可 能 成 为 用 于 测试 的 最 佳 
属性 ， 以 及 应 该 采用 哪 种 适当 的 测试 方法 。 在 第 三 部 分 介绍 的 Weka Explorer 里 有 一 个 用 
户 分 类 器 (User Classifier) ， 用 户 可 以 使 用 这 个 工具 以 交互 的 方式 创建 决策 树 。 它 根据 用 
户 选 择 的 两 个 属性 绘 出 一 个 数据 散布 图 。 当 找到 一 对 能 够 很 好 地 区 别 实例 类 别 的 属性 时 ， 
用 户 可 以 在 散 点 图 上 围绕 适合 的 数据 点 画 出 一 个 多 边 形 将 数据 一 分 为 二 。 

例如 ， 图 3-3a 显示 用 户 正 在 一 个 有 3 个 类 的 数据 集 ( 高 尾 花 数据 集 ) LRE, 并且 
已 经 找 出 两 个 属性 : petallength 和 petalwidth， 这 两 个 属性 能 够 很 好 地 将 数据 按 类 进行 分 
离 。 手 动画 出 的 一 个 长 方形 分 离 出 其 中 的 一 个 类 (Iris versicolor) 。 然 后 ， 用 户 可 以 切换 到 
树 视 图 (JILE 3-3b) 来 观察 。 左 边 的 叶子 结 点 主要 包含 了 一 种 类 型 的 划 尾 花 (Iris versico- 
lor， 仅 有 两 个 virginica 被 错 分 在 这 里 ) ; 右边 的 叶子 结 点 主要 包括 另外 两 种 类 型 的 芒 尾 花 
(Iris setosa 和 virginica， 有 两 个 versicolor 被 错 分 在 这 里 ) 。 用 户 也 许 会 选择 右边 的 叶子 进 一 
步 分 析 ， 用 另 一 个 矩形 ， 或 者 基于 一 个 不 同 的 属性 对 ， 再 继续 将 数据 分 裂 (尽管 图 3-3a 
所 示 的 两 个 属性 看 上 去 是 很 好 的 选择 ) 。 

11.2 节 介 绍 了 如 何 使 用 Weka 用 户 分 类 器 。 大 多 数 人 兴致 勃勃 地 用 这 个 工具 做 出 前 几 
个 决策 以 后 ， 很 快 就 失去 了 兴趣 ， 一 个 非常 有 用 的 方法 是 选用 一 个 机 器 学 习 方 法 ， 让 机 器 
学 习 方法 在 决策 树 的 结 点 上 做 数据 分 离 的 工作 。 从 手动 创建 决策 树 的 过 程 中 能 够 体验 到 ， 
对 不 同属 性 组 合 分 裂 (数据 ) 的 评估 是 一 项 十 分 乏味 辛苦 的 工作 。 

我 们 前 面 所 关注 的 决策 树 是 用 于 预测 名 目 型 量 而 不 是 数值 型 量 。 当 要 预测 数值 型 量 
时 ， 比 如 图 1-5 所 示 的 CPU 性 能 数据 ， 我 们 可 以 采用 同样 的 树 ， 不 同 之 处 在 于 每 一 个 叶子 
结 ERREA -T ENE 这 个 数值 型 值 是 该 叶子 结 点 所 采用 的 所 有 训练 数据 集 数 值 的 
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b) 得 到 未 完成 的 ) 决策 树 
图 3-3 ( 续 ) 


平均 值 。 由 于 决策 树 所 预测 的 是 一 个 数值 型 量 ， 所 以 这 样 的 在 叶子 结 点 上 包含 平均 数值 型 
值 的 决策 树 又 称 为 回归 树 (regression trees)。 

图 3-4a 显示 了 一 个 CPU 性 能 数据 的 回归 等 式 ， 图 3-4b 显示 了 一 棵 回归 树 。 树 的 叶子 
结 点 上 的 数字 代表 所 有 能 到 达 该 叶子 结 点 的 实例 的 结果 平均 值 。 这 棵 树 比 回归 等 式 大 很 多 
也 复杂 很 多 ,并且 通过 这 棵 树 得 到 的 预测 值 与 真实 值 之 间 的 误差 绝对 值 的 平均 值 比 由 回归 
等 式 得 到 的 小 很 多 。 回 归 树 具有 更 高 的 准确 性 ， 因 为 在 这 个 问题 中 一 个 简单 的 线性 模型 很 
难 有 效 表达 数据 的 模式 。 然 而 ， 由 于 回归 树 很 大 ， 所 以 它 显 得 腑 肿 并 难以 解释 。 

将 回归 等 式 和 回归 树 结合 起 来 是 完全 可 能 的 。 图 3-4c 中 树 的 叶子 结 点 包含 了 线性 
表达 式 ， 即 回归 等 式 ， 而 并 非 单独 的 预测 值 。 这 种 树 称 为 模型 树 (model tree) 。 图 3-4c 
中 包含 了 6 个 线性 模型 ， 用 LM1 ~ LM6 分 别 标注 ， 相 应 地 属于 6 个 时 子 结 点 。 虽 然 模型 
树 比 回归 树 更 小 也 更 容易 理解 ， 但 其 在 训练 数据 上 的 平均 误差 值 也 更 小 〈 但 是 ， 我 们 将 
在 第 5 章 中 看 到 ， 通 过 计算 训练 数据 集 的 平均 误差 来 评价 模型 的 优 劣 通常 并 非 是 一 个 好 
方法 ) 。 


3.4 规则 


规则 是 取代 决策 树 的 一 种 普遍 使 用 的 方法 ， 前 面 已 经 介绍 了 一 些 例子 : XA (1.2 
W). RÉRE (1.25), BRE (1.2 节 ) MKE (1.2 节 ) 数据 集 。 一 个 规则 的 前 件 
(antecedent) 或 者 前 提 条 件 是 一 系列 的 测试 ， 就 像 在 决策 树 结 点 上 的 测试 ， 而 后 件 (con- 
sequent) 或 者 结论 则 给 出 适合 于 规则 所 覆盖 实例 的 一 个 或 多 个 分 类 ， 或 者 给 出 实例 在 所 有 
类 上 的 概率 分 布 。 通 常 ， 前 提 条 件 是 用 逻辑 与 (AND) 的 方式 组 合 在 一 起 ， 如 果 使 用 规 
则 ， 那 么 必须 要 通过 所 有 的 测试 。 然 而 ， 在 一 些 规则 的 表达 公式 中 ， 前 提 条 件 通常 是 一 些 
一 般 的 逻辑 表达 式 ， 而 不 是 一 些 简单 的 逻辑 与 的 组 合 。 我 们 通常 认为 逻辑 或 (OR) 能 有 
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效 地 将 独立 的 规则 组 合 在 一 起 ， 如 果 其 中 的 任何 一 个 规则 适用 于 这 个 实例 ， 那 么 将 规则 结 
论 得 到 的 类 (或 概率 分 布 ) 赋予 这 个 实例 。 但 是 ， 当 多 个 规则 得 出 不 同 的 结论 时 ， 就 会 引 
出 矛盾 的 问题 。 我 们 将 在 下 面 很 快 涉 及 这 个 问题 。 
PRP = 
一 56.1 
+ 0.049 MYCT 
+ 0.015 MMIN 
+ 0.006 MMAX 
* 0.630 CACH 


— 0.270 CHMIN 
+ 1.46 CHMAX 


a) 线性 回归 











LM! PRP = 8.29 + 0.004 MMAX + 2.77 CHMIN 

LM2 PRP = 20.3 + 0.004 MMIN - 3.99 CHMIN + 0.946 CHMAX 
LM3 PRP = 38.1 + 0.012 MMIN 

LM4 PRP = 19.5 + 0.002 MMAX + 0.698 CACH + 0.969 CHMAX 
LMS PRP = 285 - 1.46 MYCT + 1.02 CACH - 9.39 CHMIN 

LM6 PRP = -65.8 + 0.03 MMIN - 2.94 CHMIN + 4.98 CHMAX 


c) 模型 树 
图 3-4 CPU 性 能 数据 模型 


3.4.1 分 类 规则 


从 决策 树 上 直接 读 出 一 组 分 类 规则 是 容易 的 。 每 一 片 叶子 可 以 产生 一 条 规则 。 规 则 的 
前 件 包 含 了 从 根 到 叶子 路 径 上 所 有 结 点 的 条 件 ， 规则 的 后 件 是 叶子 上 标注 的 类 。 这 个 过 程 
能 产生 明确 的 规则 ， 并 且 与 它们 执行 的 次 序 是 无 关 的 。 但 是 ， 通 常 从 决策 树 上 直接 读 出 的 
规则 的 复杂 度 远 远 超出 所 需 ， 所 以 为 了 去 除 一 些 匈 余 的 测试 ， 常 常 需要 对 从 决策 树 上 得 到 
EA) SUL UU ETT BY AK o 
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因为 决策 树 不 易 表示 隐 含 在 一 个 规则 集 里 的 不 同 规则 间 的 析 取 (disjunction) KA, 
所 以 将 一 个 通用 规则 集 转换 成 一 棵 树 并 不 是 十 分 直截了当 。 当 规则 拥有 相同 的 结构 却 拥有 
不 同属 性 时 ， 就 是 反映 这 个 问题 的 一 个 很 好 的 例子 ， 例 如 : 


If a and b then x 
If c and d then x 


有 必要 打破 这 种 对 称 形式 并 且 为 根 结 点 选择 一 个 测试 。 例 如 ， 如 果 选 择 a， 那么 第 二 
条 规则 必须 在 树 上 重复 两 次 ， 如 图 3-5 所 示 。 这 称 为 重复 子 树 问 题 ( replicated subtree 
problem ) 。 

重复 子 树 问 题 是 非常 重要 的 问题 ， 下 面 再 来 
看 几 个 例子 。 图 3-6 左边 的 图 显示 了 一 个 异 或 
(exclusive-or) Kit, Wx =1 或 y=1， 但 是 不 
能 同时 等 于 1， 输 出 就 是 a。 将 它 转变 成 树 时 ， 
必须 先 根据 一 个 属性 进行 分 离 , 产生 一 个 如 
图 3-6 中 间 部 分 所 示 的 结构 。 相 对 而 言 ， 规 则 能 
忠实 地 反映 有 关 属 性 的 真正 的 对 称 问题 ， 如 
图 3-6 的 右边 所 示 。 

在 这 个 例子 中 ， 规 则 并 不 比 树 简 洁 。 实 际 
上 ， 它 们 只 是 用 一 种 明显 的 方式 从 树 中 读 取 规 
则 。 但 在 其 他 情况 下 ， 规 则 比 树 更 加 紧凑 ， 特 别 
是 当 有 可 能 获得 一 个 “默认 ”规则 时 ， 它 能 覆 
盖 其 他 规则 未 说 明 的 情形 。 例 如 ， 为 了 知道 在 
图 3-7 中 找 出 规则 的 效果 如 何 ， 这 个 规则 里 有 4 
个 属性 ， 分 别 是 *、y、z 和 w， 每 一 个 属性 的 值 
可 以 是 1、2 或 3， 右边 是 由 规则 得 到 的 树 。 在 树 
的 右上 部 分 3 个 灰色 三 角形 中 的 每 一 个 都 应 该 包含 一 个 完整 的 三 层 子 树 (灰色 部 分 ) x 
是 一 个 比较 极端 的 重复 子 树 问题 ， 也 是 一 个 对 于 简单 概念 的 复杂 描述 。 





图 3-5 一 个 简单 析 取 关系 的 决策 树 


If x = 1andy=0 then class =a 
If x = 0 and y = 1 then class = a 
If x = 0 and y = 0 then class = b 
If x = l and y = 1 then class = b 
















图 3-6 异 或 问题 


规则 受 欢迎 的 一 个 原因 是 ， 每 条 规则 似乎 都 表示 一 个 独立 的 知识 “ 金 块 "。 新 的 规则 
可 以 添加 到 一 个 已 有 的 规则 集中 ， 却 不 会 扰乱 已 经 存在 的 规则 ; 而 向 一 个 树 结构 添加 新 的 
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规则 后 ， 则 需要 重新 调整 整个 树 的 结构 。 然 而 ， 这 种 规则 的 独立 性 是 一 种 错觉 ， 因 为 它 忽 
略 了 如 何 执行 规则 集 的 问题 。 前 面 已 经 讨论 过 ， 如 果 规 则 意味 着 像 一 个 “决策 列表 ”那样 
按照 先后 次 序 来 解释 ， 那么 单独 地 取出 If x = 1l and y = 1 then class = a 
其 中 的 一 部 分 规则 也 许 是 不 正确 的 。 另 Dr sem i been 
一 方面 ， 如 果 解 释 的 次 序 并 不 重要 ， 那 

么 当 不 同 的 规则 在 相同 的 实例 上 产生 不 
同 的 结论 时 ， 就 不 清楚 应 该 如 何 进行 处 
理 。 当 规则 直接 从 决策 树 上 读 出 时 ， 这 
种 情况 并 不 会 出 现 ， 因 为 存在 于 规则 结 
构 里 的 元 余 将 阻止 任何 在 解释 过 程 中 出 
现 的 模糊 情况 。 但 是 ， 当 规则 由 其 他 方 
法 产生 时 ， 确 实 会 产生 模棱两可 的 情况 。 

如 果 规 则 集 对 一 个 特定 的 样本 给 出 
了 多 个 分 类 ， 那 么 一 种 解决 方法 是 不 给 
出 任何 结论 。 另 一 种 方法 是 统计 每 一 条 
规则 在 训练 数据 上 适用 的 频率 ， 选 择 频 
率 最 高 的 一 条 规则 所 对 应 的 结论 作为 这 
个 样本 的 分 类 。 这 些 策略 会 导致 产生 完 
全 不 同 的 结论 。 当 规则 不 能 对 一 个 实例 
进行 分 类 时 ， 就 产生 了 另 一 个 不 同 的 问 
题 。 决 策 树 或 者 从 决策 树 上 读 出 的 规则 
不 会 出 现 这 个 问题 。 然 而 这 种 情况 很 容 0 SNHGDCPNSISRN 
易 发 生 在 通用 规则 集 上 。 一 种 处 理 方法 是 对 这 种 样本 不 进行 分 类 ， 另 一 种 方法 是 选择 
出 现 频率 最 高 的 类 作为 默认 类 。 同 样 ， 这 些 策略 也 有 可 能 产生 完全 不 同 的 结论 。 单 独 
的 规则 是 简单 的 ， 而 规则 的 集合 看 上 去 似乎 也 很 简单 ， 但 是 如 果 给 出 的 规则 集 并 没有 
附 上 额外 的 信息 ,仍然 不 清楚 如 何 对 它 进行 解释 。 

一 个 特别 简单 明了 的 情况 出 现在 当 规则 产生 布尔 型 的 类 时 (如 yes 和 no)， MAAR 
用 那些 仅 产 生 一 个 结果 (如 yes) 的 规则 。 假 设 一 个 特定 的 实例 不 是 类 yes， 那 么 它 一 定 是 
类 no， 这 是 封闭 世界 的 假定 。 这 样 一 来 ， 规 则 之 间 就 不 会 产生 任何 冲突 ， 在 规则 解释 的 过 
程 中 也 不 会 出 现 模棱两可 的 情况 ， 任 何 解释 的 方法 都 将 给 出 相同 的 结果 。 这 种 规则 集 可 以 
写成 一 个 逻辑 表达 式 ， 称 为 析 取 范式 (disjunctive normal form) ， 即 表达 为 对 合 取 (AND) 
条 件 进 行 析 取 (OR) 运算 的 形式 。 

正 是 这 个 简单 的 特例 ， 使 得 人 们 产生 设想 : 规则 是 很 容易 处 理 的 。 因 为 这 里 的 每 一 条 
规则 确实 被 当做 一 个 新 的 、 独 立 的 信息 块 来 操作 ， 采 用 一 种 简单 的 办 法 为 析 取 做 贡献 。 不 
幸 的 是 ， 这 种 方法 只 适用 于 结论 是 布尔 值 的 情况 ， 并 且 要 假设 是 一 个 封闭 的 世界 ， 而 这 两 
个 限制 条 件 在 实际 情况 中 都 是 不 现实 的 。 在 存在 多 个 类 的 情况 下 ， 由 机 器 学 习 算 法 产生 的 
规则 必然 会 产生 有 序 的 规则 集 ， 这 将 牺牲 模块 化 的 可 能 性 ， 因 为 规则 执行 的 次 序 是 非常 重 
要 的 。 
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3. 4.2 关联 规则 


关联 规则 能 够 预测 任何 属性 而 不 仅仅 是 类 ， 所 以 关联 规则 也 能 预测 属性 的 组 合 ， 但 除 
此 以 外 关联 规则 与 分 类 规则 并 没有 什么 不 同 。 关 联 规则 在 使 用 的 时 候 不 像 分 类 规则 那样 被 
组 合成 一 个 规则 集 来 使 用 。 不 同 的 关联 规则 揭示 出 数据 集 的 不 同 规律 ， 通 常用 来 预测 不 同 
的 事物 。 

因为 从 一 个 很 小 的 数据 集 上 能 够 产生 出 很 多 不 同 的 关联 规则 ， 所 以 只 局 限于 研究 那些 
能 够 应 用 在 实例 数量 比较 大 ， 并 且 能 在 实例 上 获得 较 高 准确 率 的 关联 规则 。 关 联 规则 的 履 
盖 量 (coverage) 是 关联 规则 能 够 正确 预测 的 实例 数量 ， 通 常 称 为 支持 度 (support). 
X (accuracy) 通常 称 为 置信 度 (confidence) ， 是 正确 预测 的 实例 数量 在 关联 规则 应 用 所 
涉及 的 全 部 实例 中 占据 的 比例 。 例 如 ， 对 于 规则 : 

If temperature = cool then humidity = normal 
覆盖 量 是 那些 温度 属性 是 凉爽 的 、 湿 度 属 性 是 正常 的 天 数 (CER 1-2 的 数据 中 有 4 天 ) ， 
准确 率 是 湿度 属性 为 正常 的 天 数 在 温度 为 凉爽 的 天 数 中 所 占 的 比例 (这 个 例子 的 准确 率 
是 100% )。 

通常 需要 明确 最 小 覆盖 量 和 准确 率 ， 只 寻找 那些 覆盖 量 和 准确 率 至 少 达 到 预定 最 小 值 
的 关联 规则 。 例 如 在 天 气 数据 中 ， 有 58 条 覆盖 量 和 准确 率 分 别 至 少 是 2 和 95% 的 规则 
(将 覆盖 量 转换 为 一 个 相对 于 实例 总 数 的 百分比 的 形式 也 许 会 更 为 方便 ) 。 

可 以 预测 多 个 结果 的 关联 规则 在 解释 的 时 候 必须 小 心 处 理 。 例 如 ， 表 1-2 所 示 的 天 气 
数据 中 的 一 条 关联 规则 如 下 : 


If windy = false and play = no then outlook = sunny 
and humidity - high 


它 并 不 仅仅 是 以 下 两 个 独立 规则 的 简写 形式 : 


If windy = false and play = no then outlook - sunny 
If windy = false and play = no then humidity = high 


前 一 条 规则 确实 暗示 了 下 两 条 规则 能 达到 最 小 覆盖 量 和 准确 率 ， 但 是 除 此 以 外 ， 它 还 
暗示 了 更 多 的 信息 。 前 一 条 规则 意味 着 没有 风 、 不 能 玩 与 晴天 、 湿 度 大 的 样本 个 数 至 少 达 
到 了 指定 的 最 小 覆盖 量 。 同 时 ， 它 也 意味 着 这 种 天 气 的 天 数 在 没有 风 、 不 能 玩 的 天 数 中 所 
占 的 比例 至 少 达到 了 指定 的 最 小 准确 率 。 它 还 隐 含 了 下 面 的 规则 

If humidity = high and windy = false and play - no then outlook = sunny 
因为 这 条 规则 与 原先 的 规则 有 相同 的 覆盖 量 ， 并 且 它 的 准确 率 一 定 至 少 和 原先 规则 相同 ， 
并 且 因 为 湿度 大 、 没 有 风 、 不 能 玩 的 天 数 必然 小 于 没有 风 、 不 能 玩 的 天 数 ， 所 以 准确 率 会 
提高 。 

如 上 所 示 ， 特 定 关联 规则 之 间 存 在 关系 : 一 些 规则 隐 含 另 一 些 规 则 。 当 有 多 条 规则 相 
关联 时 ， 要 减少 所 产生 的 规则 的 数量 ， 合 理 的 做 法 是 给 用 户 提供 最 重要 的 一 条 规则 。 上 面 
的 例子 中 ， 仅 保留 第 一 条 规则 。 


3.4.3 包含 例外 的 规则 


分 类 规则 的 一 个 自然 扩展 就 是 允许 规则 包含 例外 (exception)。 它 是 在 现 有 的 规则 上 
使 用 例外 表达 法 来 增 量 地 修改 一 个 规则 集 ， 而 不 需要 重新 建立 整个 规则 集 。 例 如 ， 前 面 讨 
论 过 的 高 尾 花 问 题 ,假如 表 3-1 给 出 了 一 个 新 找到 的 花 的 数据 ， 专 家 判断 这 个 新 的 花 是 一 
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个 Fris setosa 的 实例 。 如 果 用 第 1 章 给 出 的 规则 对 花 进行 分 类 ， 那 么 下 面 两 条 规则 将 会 得 
出 错误 结论 : 


If petal-length 2 2.45 and petal-length < 4.45 then Iris-versicolor 
If petal-length > 2.45 and petal-length < 4.95 and 
petal-width < 1.55 then Iris-versicolor 


将 这 两 条 规则 进行 修改 ， 才 能 对 新 的 实例 进行 正确 分 类 。 然 而 ， 只 是 简单 地 改变 这 些 
规则 中 的 属性 值 的 测试 边界 并 不 能 解决 问题 ， 因 为 用 来 建立 规则 集 的 实例 也 会 被 错 分 。 对 
规则 集 的 修改 并 不 像 听 上 去 那么 简单 。 





表 3-1 新 的 营 尾 花 
sepal length sepal width petal length petal width type 
5.1 3:5 2.6 0.2 2 


首先 专家 需要 给 出 解释 ， 为 什么 新 的 花 与 规则 相抵 触 ， 根 据 得 到 的 解释 仅 对 相关 的 规 
则 进行 扩展 ， 而 不 是 修改 现存 规则 中 的 测试 。 例 如 ， 上 面 两 条 规则 中 的 第 一 条 错 将 新 的 工 
ris setosa 分 到 Iris versicolor 类 里 。 可 以 利用 其 他 一 些 属性 建立 一 个 例外 ， 来 取代 修改 规则 
中 不 等 式 里 的 边界 值 : 


If petal-length 2 2.45 and petal-length < 4.45 
then Iris-versicolor 
EXCEPT if petal-width < 1.0 then Iris-setosa 


ix LI eH, WR ERK BET E 2. 45 - 4. 45cm 之 间 ， 这 种 花 就 是 Iris versicolor, [HJ&/ 
Ah, AAR ISI HEE AY FEE ZF 1. 0cm, ARE REAL Iris setosa。 

当然 ， 还 可 能 出 现 例外 之 中 又 包含 例外 的 双重 骨 套 结构 ， 甚 至 会 出 现 三 重 、 四 重 等 例 
外 嵌 套 结构 ， 这 使 得 规则 集 具有 树 的 某 些 特 点 ， 除 了 可 以 用 来 对 现存 的 规则 集 做 增 量 的 修 
改 外 ， 这 些 包 含 了 例外 的 规则 能 够 表达 所 有 的 概念 描述 。 

图 3-8 所 示 的 一 组 规则 能 够 对 营 尾 花 数 据 集中 的 所 有 样本 正确 地 分 类 (第 1 章 )。 这 
些 规则 一 开始 很 难 理解 ， 下 面 将 一 步 一 步 地 给 予 解释 。 首 先 选择 一 个 默认 的 输出 类 Iris se- 
tosa， 并 显示 在 第 一 行 。 对 这 个 数据 集 来 说 ， 默 认 类 的 选择 是 任意 的 ， 因 为 每 一 种 类 型 都 
有 50 个 样本 。 通 常 选择 出 现 频率 最 高 的 类 作为 默认 值 。 


Default: Iris-setosa 


except if petal-length »- 2.45 and petal-length « 5.355 
and petal-width « 1.75 
then Iris-versicolor 
except if petal-length »- 4.95 and petal-width « 1.55 


then Iris-virginica 
else if sepal-length « 4.95 and sepal-width »- 2.45 
then Iris-virginica 
else if petal-length >= 3.35 
then Iris-virginica 
except if petal-length « 4.85 and sepal-length « 5.95 
then Iris-versicolor 
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图 3-8 营 尾 花 数据 的 规则 


接 下 来 的 规则 给 出 在 该 默认 值 时 相应 的 例外 。 第 2 ~4 行 的 第 一 个 让 .then 给 出 了 一 
个 产生 Iris versicolor 分 类 的 条 件 。 然 而 这 个 规则 存在 两 个 例外 (第 5 ~8 行 )， 我 们 稍 后 处 
理 。 如 果 不 符合 第 2 行 和 第 3 行 的 条 件 ， 将 转 到 第 9 行 else， 它 表示 了 最 初 默认 类 的 第 2 
种 例外 。 如 果 符合 第 9 行 的 条 件 ， 就 属于 类 Iris virginica (58 10 行 )。 第 11 ~ 12 行 是 这 一 
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规则 的 另 一 个 例外 。 

现在 讨论 第 5 ~8 行 的 例外 情况 。 如 果 满 足 第 S 行 或 第 7 行 中 的 任何 一 个 测试 条 件 ， 
那么 Iris versicolor 的 结论 将 被 废除 。 这 两 个 例外 将 得 出 相同 的 结论 : Iris virginica (58 6 fT 
和 第 8 行 ) 。 第 11 行 和 第 12 行 是 最 后 一 个 例外 ， 当 满足 第 11 行 的 条 件 时 ， 它 废除 了 在 第 
10 行 得 到 的 Iris virginica 结论 ， 最 后 产生 的 分 类 是 Iris versicolor。 

在 弄 清楚 这 些 规 则 如 何 阅 读 以 前 ， 需 要 花 些 时 间 仔 细 思 考 这 些 规则 。 尽 管 需要 花 一 点 
儿 时 间 ， 但 在 熟悉 之 后 ， 解 决 except Hif... then... else 问题 是 轻而易举 的 。 人 们 习惯 于 使 
用 规则 、 例 外 和 例外 的 例外 来 思考 真实 的 问题 ， 所 以 这 也 是 表达 复杂 规则 集 的 好 方法 。 但 
是 这 种 表达 方法 最 主要 的 优点 是 整个 规则 集 的 增长 幅度 适中 。 尽 管 对 整个 规则 集 的 理解 有 
点 困难 ， 但 是 每 一 个 单独 的 结论 、 每 一 个 单独 的 then 语句 ， 只 需要 在 那些 导致 它 的 规则 和 
例外 的 范围 里 考虑 。 至 于 决策 列表 ， 则 需要 重新 审视 前 面 所 有 的 规则 来 判断 一 个 单独 规则 
的 确切 影响 。 当 开始 理解 大 的 规则 集 时 ， 这 种 局 部 性 特性 是 重要 的 。 从 心理 上 看 ， 人 们 习 
惯 把 一 个 特定 事件 集 或 一 种 事件 看 成 数据 ， 当 观察 任何 一 个 在 例外 结构 里 的 结论 时 ， 以 及 
当 其 中 的 一 个 事件 转变 成 结论 的 一 个 例外 时 ， 增 加 一 个 except 子 语 是 解决 问题 的 一 个 简单 
方法 。 

这 里 需要 指出 default... except if... then... 结构 逻辑 上 与 让 .. then... else... 相等 ， 
else 是 无 条 件 的 ， 并 且 精 确 地 指出 默认 值 是 什么 。 当 然 一 个 无 条 件 的 else 就 是 一 个 默认 值 
GES: 上 面 的 规则 中 没有 无 条 件 的 else) 。 从 逻辑 上 说 ， 基 于 例外 的 规则 可 以 简单 地 用 
if... then... else 语句 改写 。 采 用 例外 形式 来 陈述 ， 所 获 的 益处 更 趋向 于 心理 上 的 而 不 是 逻 
辑 上 的 。 这 里 假设 默认 值 和 较 早 出 现 的 测试 的 应 用 范围 ， 相 对 于 以 后 的 例外 情况 的 应 用 范 
围 更 为 广泛 。 如 果真 实情 况 确实 如 此 ， 用 户 能 够 看 到 这 是 一 个 似乎 可 行 的 方法 ， 用 (普遍 
A) 规则 和 CRA) 例外 情况 的 表达 方式 ， 比 一 个 不 同 的 但 逻辑 相同 的 结构 ， 更 容易 
被 领会 。 


3. 4.4 表达 能 力 更 强 的 规则 


前 面 已 经 隐 含 地 假设 了 规则 中 的 条 件 涉 及 一 个 属性 值 和 一 个 常量 的 测试 。 但 这 也 许 还 
并 不 令 人 满意 。 举 一 个 具体 的 例子 ， 假 设 图 3-9 显示 了 一 组 8 个 不 同形 状 和 尺寸 的 积木 ， 
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图 3-9 形状 问题 : 阴影 = standing (站 立 ); 无 阴影 =lying (EMS) 
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希望 学 到 standing up (站 起 来 ) 的 概念 。 这 是 一 个 经 典 的 二 类 问题 ， 这 两 个 类 分 别 是 
standing (站 立 ) 类 和 lying (E8) 类 。 其 中 4 个 有 阴影 的 积木 是 正 例 概念 样本 ( stand- 
ing) ， 没 有 阴影 的 积木 是 负 例 概念 样本 (lying) 。 学 习 算 法 的 输入 信息 是 每 块 积木 的 width 
(宽度 ) 、height (高 度 ) 和 number of sides ( 边 数 ) 。 表 3-2 显示 了 训练 数据 集 。 


表 3-2 形状 问题 的 训练 数据 








width height sides class 

2 4 4 standing 
3 6 4 l standing 
4 3 4 lying 
7 8 3 standing 
7 6 3 lying 
2 9 4 standing 
9 1 4 lying 

10 2 3 lying 


从 这 个 数据 中 可 能 产生 的 常规 规则 集 是 : 


if width 2 3.5 and height < 7.0 then lying 
if height > 3.5 then standing 


为 什么 width 的 分 界 点 是 3. 5? 因为 它 是 卧 倒 积木 的 最 小 宽度 4 与 高 度 小 于 7 的 站 立 积 
木 的 最 大 宽度 3 的 平均 值 。 同 样 ，7. 0 是 height 的 分 界 点 ， 因 为 它 是 卧 倒 积木 最 大 高 度 6 
与 宽度 大 于 3. 5 的 站 立 积木 的 最 小 高 度 8 的 平均 值 。 将 数值 型 的 阔 值 设 定 为 概念 边界 值 的 
中 间 值 是 一 个 通用 的 方法 。 

尽管 这 两 条 规则 能 够 在 给 出 的 样本 上 很 好 地 运行 ， 但 是 它们 不 是 最 好 的 方案 。 因 为 它 
们 不 能 对 许多 新 的 积木 进行 分 类 〈 例 如 ， 积 木 的 宽度 是 1， 高度 是 2) ， 还 可 以 很 容易 地 找 
出 许多 合理 的 而 这 两 条 规则 不 适用 的 积木 。 

当 人 们 在 对 这 8 个 积木 进行 分 类 时 ， 也 许 会 发 现 “站 立 积木 的 高 度 大 于 宽度 " 。 这 条 
规则 是 在 属性 值 之 间 进 行 比较 ， 而 不 是 将 属性 值 与 一 个 常量 进行 比较 : 


if width > height then lying 
if height > width then standing 


height 和 width 的 真实 值 并 不 重要 ， 重 要 的 是 它们 之 间 的 比较 结果 。 

许多 机 器 学 习 方案 并 不 考虑 属性 之 间 的 关系 ， 因 为 这 样 做 代价 太 高 。 实 际 上 ， 有 一 种 
可 行 的 方法 就 是 添加 额外 的 第 二 属性 表示 两 个 原始 属性 是 相等 或 者 不 相等 ， 如 果 是 数值 属 
性 可 以 给 出 它们 之 间 的 差 值 。 例 如 ， 可 以 在 表 3-2 中 增加 一 个 宽度 是 否 小 于 高 度 (width < 
height?) 的 一 个 二 元 属性 。 这 些 属性 通常 作为 数据 处 理工 作 的 一 部 分 被 加 入 。 

经 过 看 似 较 小 的 改进 后 ， 关 系 的 知识 表达 能 力 能 够 得 到 极 大 的 扩展 。 其 中 的 奥秘 是 采 
用 能 使 实例 作用 明确 的 方法 来 表示 规则 : 


if width(block) > height(block) then lying(block) 
if height (block) > width(block) then standing (block) 


尽管 这 个 例子 似乎 并 没有 得 到 很 多 扩展 ， 但 是 如 果 能 够 把 实例 分 解 成 多 个 部 分 ， 那 么 
规则 的 表现 能 力 确实 能 够 得 到 扩展 。 例 如 ， 如 果 一 个 由 大 量 石 块 堆 出 的 塔 (tower) ， 石 块 
层 层 堆 积 ， 那 么 位 于 塔 最 顶端 的 石 块 是 站 立 的 ， 就 可 以 用 以 下 的 规则 表示 : 


if height(tower.top) > width(tower.top) then standing(tower.top) 
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这 里 tower.top 是 指 最 顶端 的 那 块 石 块 。 到 现在 为 止 并 没有 获得 任何 益处 。 但 是 ， 如 果 用 
tower.rest 表示 塔 的 其 余部 分 ， 那么 可 以 用 下 面 的 规则 表示 塔 是 由 全 部 站 立 的 石 块 组 成 。 


if height(tower.top) > width(tower.top) and standing(tower.rest) 
then standing(tower) 


看 似 很 小 的 附加 条 件 standing( tower.rest) 却 是 一 个 递归 表达 形式 ， 只 有 当 塔 的 其 余部 分 全 
部 由 站 立 的 石 块 组 成 时 ， 附 加 条 件 standing ( tower.rest) 才能 得 到 满足 。 相 同 规则 的 递归 程 
序 将 对 此 进行 测试 。 当 然 ， 有 必要 增加 一 个 如 下 的 规则 为 递归 设置 一 个 适合 的 “跳出 点 ” 
( bottoms out) ; 


if tower-empty then standing(tower.top) 
像 这 样 的 规则 集 称 为 逻辑 程序 (logie program)， 在 机 器 学 习 领 域 里 称 为 归纳 逻辑 编程 
(inductive logic programming) 。 本 书 将 不 深入 涉及 这 一 内 容 。 


3.5 基于 实例 的 表达 


最 简单 的 学 习 形 式 是 简单 地 记 住 或 者 死记 硬 背 (Tote leaning), 一 旦 记 住 了 一 个 训练 
实例 集 ， 在 遇 到 一 个 新 的 实例 时 ， 就 会 在 记忆 中 找 出 与 之 最 相似 的 一 个 训练 实例 。 唯 一 的 
问题 是 如 何 理解 “相似 ”， 我 们 将 很 快 对 此 进行 解释 。 首 先 ， 注 意 这 是 采用 一 种 完全 不 同 
的 方法 来 表达 从 实例 集 里 提取 的 “知识 ”: 保存 实例 本 身 ， 并 且 将 类 未 知 的 新 实例 与 现 有 
类 已 知 的 实例 联系 起 来 进行 操作 。 这 种 方法 直接 在 样本 上 工作 ， 而 不 是 建立 规则 。 这 就 是 
基于 实例 的 学 习 (instance-based learning) 。 从 某 种 意义 上 看 ， 所 有 其 他 的 机 器 学 习 方法 都 
是 “基于 实例 ”的 ， 因 为 我 们 总 是 从 一 个 作为 初始 训练 信息 的 实例 集 开 始 。 但 是 基于 实例 
的 知识 表达 使 用 实例 本 身 来 表达 所 学 到 的 (知识 )， 而 不 是 推断 出 一 个 规则 集 或 决策 树 ， 
并 保存 它 。 

在 基于 实例 的 学 习 中 ， 对 一 个 新 的 实例 进行 分 类 时 ， 才 进行 实质 性 的 工作 ， 而 不 是 处 
理 训练 集 时 进行 。 从 这 一 点 上 看 ， 基 于 实例 的 学 习 方法 和 其 他 已 介绍 的 学 习 方 法 的 不 同 之 
处 是 “学 习 ”发生 的 时 间 不 同 。 基 于 实例 的 学 习 是 懒惰 的 ， 尽 可 能 延缓 实质 性 的 工作 ， 而 
其 他 学 习 方 法 是 急切 的 ， 只 要 发 现 数据 就 产生 一 个 泛 化 。 在 基于 实例 的 学 习 中 ， 使 用 一 种 
距离 度量 将 每 个 新 实例 与 现 有 的 实例 进行 比较 ， 利 用 最 接近 的 现存 实例 赋予 新 实例 类 别 。 
这 称 为 最 近邻 (nearest-neighbor) 分 类 方法 。 有 时 使 用 不 止 一 个 最 近邻 实例 ， 并 且 用 最 近 
的 个 邻居 所 属 的 多 数 类 (如 果 类 是 数值 型 ， 就 是 经 距离 - 加 权 的 平均 值 ) 赋予 新 的 实 
例 。 这 就 是 上 最 近邻 (k-nearest-neighbor) 法 。 

当 样 本 仅 有 一 个 数值 属性 时 ， 计 算 两 个 样本 之 间 的 距离 没有 多 大 意义 ， 它 仅仅 是 两 个 
属性 值 之 差 。 当 存在 多 个 数值 属性 时 ， 几 乎 是 直接 使 用 标准 欧 几 里 得 距离 。 然 而 ， 这 里 假 
设 所 有 属性 值 已 经 被 规范 化 ， 且 同样 重要 ， 机 器 学 习 中 的 一 个 重要 问题 是 判断 哪些 属性 是 
重要 属性 。 

当 表示 名 目 属性 时 ， 有 必要 对 名 目 属 性 的 不 同 值 之 间 提 出 一 个 “距离 ”。 如 果 属 性 值 
是 红 、 绿 和 蓝 ， 它 们 之 间 的 距离 是 什么 ? 通常 ， 如 果 属 性 值 相同 ， 那 么 它们 之 间 的 距离 是 
0; 和 否则， 距离 是 1。 所 以 红 和 红 之 间 的 距离 是 0， 红 和 绿 之 间 的 距离 是 1。 但是， 比较 合 
理 的 处 理 方法 是 采用 一 个 更 复杂 的 属性 表达 。 例 如 ， 当 有 多 种 颜色 时 ， 可 以 在 颜色 区 间 使 
用 一 个 色调 的 数值 度量 ， 与 绿色 相 比 ， 黄 色 更 接近 村 黄色 和 土 黄色 。 

有 些 属性 也 许 比 另 一 些 属性 更 加 重要 ， 这 通常 通过 某 种 属性 加 权 反 映 在 距离 度量 上 。 
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从 训练 集 上 获得 合适 的 属性 权 值 是 基于 实例 学 习 中 的 一 个 关键 问题 。 

也 许 没 有 必要 存储 所 有 的 训练 实例 。 一 方面 是 因为 它 可 能 使 最 近邻 的 计算 过 程 异常 组 
慢 ， 另 一 方面 它 将 不 切实 际 地 占用 大 量 的 存储 空间 。 通 常 ， 与 类 相对 应 的 属性 空间 的 部 分 
区 域 比 其 他 区 域 更 稳定 ， 所 以 在 这 些 稳定 的 区 域内 只 需要 少数 几 个 样本 。 例 如 ， 你 也 许可 
以 期 望 类 边界 以 内 所 需 的 样本 密度 小 于 靠近 类 边界 所 需 的 密度 。 决 定 应 该 保留 哪些 实例 ， 
应 该 抛弃 哪些 实例 是 基于 实例 学 习 的 另 一 个 关键 问题 。 

基于 实例 学 习 表 达 方 式 有 一 个 明显 的 弱点 ， 就 是 它 不 能 对 所 学 到 的 〈 知 识 ) 给 出 一 个 
清晰 的 数据 结构 。 从 这 方面 说 ， 它 和 在 本 书 一 开始 所 陈述 的 “学 习 ” 相 冲突 ， 实 例 并 没有 
真正 “描述 ”数据 中 的 模式 。 然 而 ， 实 例 结合 距离 度量 在 实例 空间 划 出 的 边界 能 够 区 别 不 
同 的 类 别 ， 这 是 一 种 显 式 的 知识 表达 形式 。 例 如 ， 给 出 两 个 属于 不 同类 的 实例 ， 最 近邻 规 
则 能 有 效 地 利用 实例 之 间 连 线 的 垂直 平分 线 将 实例 空间 分 隔 开 来 。 如 果 每 个 类 都 有 多 个 实 
例 ， 那 么 实例 空间 将 被 一 组 直线 分 隔 开 来 ， 这 组 直线 是 经 过 挑选 的 、 属 于 一 个 类 别 的 实例 
与 另 一 个 类 别 实 例 之 间 连 线 的 垂直 平分 线 。 图 3-10a 里 用 一 个 九 边 形 将 属于 实心 圆 的 类 从 
属于 空心 圆 的 类 里 分 离 出 来 。 这 个 多 边 形 隐 含 着 最 近邻 规则 的 操作 。 





图 3-10 分 隔 实例 空间 的 不 同方 法 


当 训 练 实例 被 丢弃 后 ， 结 果 是 每 个 类 只 保存 几 个 有 代表 性 的 样本 。 图 3- 10b 用 深 色 空 
心 圆圈 显 式 的 仅 是 几 个 真正 在 最 近邻 决策 中 使 用 到 的 样本 ， 其 他 的 样本 〈 淡 灰色 的 空心 圆 
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B) 可 以 被 丢弃 而 不 对 结果 产生 任何 影响 。 这 些 有 代表 性 的 样本 就 是 一 种 显 式 的 知识 表达 
形式 。 

一 些 基 于 实例 的 表达 法 能 够 更 进一步 对 实例 进行 显 式 的 泛 化 。 典 型 的 方法 是 通过 建立 
和 矩形 区 域 来 包围 属于 同一 类 的 实例 。 图 3-10c 展示 了 可 能 产生 的 矩形 区 域 。 如 果 一 个 未 知 
类 的 实例 落 入 某 一 矩形 区 域内 ， 它 将 被 赋予 相应 的 类 ， 而 落 在 所 有 和 撼 形 区 域外 的 样本 将 服 
从 最 近邻 规则 。 当 然 这 将 产生 与 直接 的 最 近邻 规则 不 同 的 决策 边界 ， 若 将 图 3-10a 的 多 边 
形 与 矩形 重病 后 就 会 发 现 (不同 之 处 )。 落 人 和 矩形 的 多 边 形 部 分 将 被 砍 掉 ， 而 由 矩形 边界 
取代 。 : 
在 实例 空间 的 矩形 泛 化 就 像 是 包含 特殊 条 件 形式 的 规则 ， 它 对 一 个 数值 变量 进行 上 、 
下 边界 的 测试 ， 并 选择 位 于 其 间 的 区 域 。 不 同 尺 寸 的 矩形 对 应 于 由 人 逻辑 与 组 合 在 一 起 的 在 
不 同属 性 上 的 测试 。 选 择 一 个 最 适合 的 矩形 作为 测试 边界 所 产生 的 规则 ， 将 比 由 基于 规则 
的 机 器 学 习 方案 产生 的 规则 更 为 保守 ， 因 为 对 于 区 域 的 每 一 个 边界 ， 都 有 一 个 真正 的 实例 
落 在 边界 上 (或 边界 内 ) 。 而 像 x<a (x 是 一 个 属性 值 ，a 是 一 个 常量 ) 的 测试 将 包围 一 
半 的 空间 ,不管 x 有 多 小 只 要 它 小 于 ac 

当 在 实例 空间 中 运用 矩形 泛 化 时 ， 能 够 做 到 保守 ， 因 为 如 果 一 个 新 的 样本 落 在 所 有 区 
域 以 外 ， 还 可 以 求助 于 最 近邻 的 度量 方法 。 而 采用 基于 规则 的 方法 时 ， 如 果 没 有 规则 适用 
于 这 个 样本 ， 那 么 它 将 不 能 被 分 类 ， 或 者 仅 得 到 一 个 缺 省 的 分 类 。 更 加 保守 的 规则 的 优点 
是 尽管 保守 的 规则 并 不 完整 ， 但 它 也 许 比 一 个 覆盖 所 有 事件 的 规则 集 的 表达 更 为 清楚 。 最 
后 ， 要 保证 区 域 之 间 不 重合 ,也 就 是 保证 最 多 只 能 有 一 个 规则 适合 应 用 于 一 个 样本 ， 这 样 
就 避免 了 在 其 他 基于 规则 学 习 系统 中 ， 多 个 规则 适用 于 一 个 样本 的 难题 。 

一 个 更 复杂 的 泛 化 是 允许 和 矩形 区 域 府 入 在 其 他 和 矩形 区 域 中 。 正 如 图 3-10d 所 示 ， 基 本 
上 属于 一 个 类 的 样本 区 域 里 包含 了 属于 男 一 个 不 同类 的 内 部 区 域 。 还 可 以 允许 租 套 内 的 髓 
套 ， 那 么 内 部 区 域 本 身 就 可 以 包含 一 个 不 同类 的 内 部 区 域 ， 这 个 类 也 可 能 与 最 外 面 的 区 域 
属于 同一 个 类 。 这 种 处 理 方法 与 3.4 节 人 允许 规则 中 有 例外 ， 以 及 例外 的 例外 相 类 似 。 

这 里 需要 指出 的 是 在 样本 空间 里 ， 用 边界 的 方法 将 基于 实例 学 习 可 视 化 的 技术 有 一 点 
轻微 的 风险 : 它 做 了 一 个 隐 含 的 假设 ， 假 设 属性 是 数值 型 的 而 不 是 名 目 型 的 。 如 果 一 个 名 
目 属性 的 不 同属 性 值 被 放置 在 一 条 直线 上 ， 那么 在 这 条 直线 进行 分 段 的 泛 化 是 没有 意义 
Bg: 每 个 测试 包含 了 一 个 属性 值 或 者 所 有 属性 值 (也 许 是 属性 值 的 任意 一 个 子 集 ) 。 尽 管 
你 能 很 容易 或 不 太 容易 地 将 图 3-10 的 样本 想象 成 扩展 到 多 维 空间 上 ， 但 是 要 想像 包含 了 
名 目 属性 的 规则 在 多 维 实例 空间 上 将 是 如 何 的 ， 就 困难 多 了 。 在 许多 场合 里 机 器 学 习 需 要 
处 理 大 量 的 属性 ， 当 扩展 到 高 维 实例 空间 时 ， 直 觉 往往 会 导致 我 们 步 人 歧途 。 


3.6 RŽ 


当 机 器 学 习 学 到 的 是 聚 类 而 不 是 一 个 分 类 器 时 ， 输 出 则 采用 一 个 显示 实例 如 何 落 入 聚 
类 的 图 形 形 式 。 最 简单 的 方法 是 让 每 个 实例 伴随 一 个 聚 类 的 编号 ， 通 过 将 实例 分 布 在 2 维 
空间 并 且 对 空间 加 以 分 隔 的 形式 来 表示 各 个 聚 类 ， 如 图 3-11a 所 示 。 

有 些 聚 类 算法 允许 一 个 实例 可 以 属于 多 个 聚 类 ， 如 维 恩 图 (Venn diagram) ， 将 实例 分 
布 在 2 维 图 形 上 ， 然 后 画 出 重 琶 的 子 集 来 表示 每 个 聚 类 ， 如 图 3-11b 所 示 。 另 一 些 算法 将 
实例 与 各 个 聚 类 的 概率 相关 联 而 不 是 〈 直 接 ) 与 类 别 相关 联 。 从 这 个 意义 上 说 ， 每 个 实例 
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存在 一 个 对 于 各 个 聚 类 的 成 员 归 属 的 可 能 性 或 者 程度 ， 如 图 3-11e 所 示 。 这 个 特殊 的 关联 
意味 着 一 个 概率 问题 ， 所 以 对 于 每 个 实例 ， 所 有 概率 和 为 1， 尽管 并 不 总 是 这 样 。 

其 他 算法 产生 一 个 分 层 的 聚 类 结构 ， 在 结构 顶层 的 实例 空间 被 分 为 几 个 聚 类 ， 每 个 聚 
类 将 在 下 一 层 又 被 分 为 几 个 子 聚 类 ， 如 此 下 去 。 这 样 就 产生 如 图 3-11d 所 示 的 结构 ， 聚 类 
的 成 员 在 低层 聚集 的 紧密 程度 要 高 于 在 高 层 聚 集 的 程度 。 这 种 图 称 为 树 状 图 (dendro- 
gram) 。 这 个 术语 与 树 图 (tree diagram) 有 着 相同 的 含义 (希腊 语 dendron 是 “一 棵 树 ”) ， 
但 是 在 聚 类 中 似乎 更 倾向 于 使 用 古文 ， 因 为 聚 类 技术 首先 运用 的 领域 是 生物 物种 ， 而 在 生 
物 学 领域 通常 使 用 古代 语言 对 生物 物种 进行 命名 。 

聚 类 之 后 通常 伴随 着 推导 出 一 个 决策 树 或 规则 集 的 步骤， 从 而 将 每 个 实例 分 配 到 它 所 
属 的 聚 类 。 这 样 说 来 ， 聚 类 操作 只 不 过 是 通 向 结构 描述 的 一 个 步骤 。 
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图 3-11 表示 到 类 的 不 同方 法 
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3.7 补充 读物 


传统 上 知识 表达 是 人 工 智能 的 一 个 重要 主题 ,并 在 Brachman 和 Levesque (1985) 的 
一 系列 系统 的 论文 中 已 得 到 了 很 好 的 论述 。de Raedt 在 《Logical and relation》 (2008) 一 
书 中 对 归纳 逻辑 编程 以 及 相关 课题 的 领域 做 了 详尽 的 讲述 。 

我 们 提 到 过 处 理 不 同 规则 之 间 冲 罕 的 问题 ， 对 此 有 多 种 处 理 方 案 ， 称 为 冲突 解决 策略 
(conflict resolution strategy) ， 这 些 策 略 已 经 进一步 运用 到 基于 规则 的 程序 系统 中 。 有 关 基 
于 规则 编程 的 书 中 曾 述 了 有 关 策 略 的 内 容 ， 如 Brownstown 等 (1985) 所 著 。 然 而 ， 它 们 
是 为 用 于 手动 设置 的 而 非 学 习 来 的 规则 集 而 设计 的 。Gaines 和 Compton (1995) 做 了 关于 
手动 设置 的 包含 例外 的 规则 在 一 个 大 型 数据 集 上 应 用 的 研究 ， 并 且 Richards 和 Compton 
(1998) 探讨 了 它们 作为 经 典 的 知识 工程 的 替代 作用 。 

更 多 的 有 关 概 念 表 达 的 不 同方 法 ， 可 以 在 那些 有 关 从 样本 中 推出 概念 的 机 器 学 习 方 法 

的 论文 中 找到 。 在 4. 10 节 和 第 6 章 的 讨论 部 分 将 谈 到 这 部 分 内 容 。 
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我 们 已 经 学 习 了 如 何 表达 输入 和 输出 ， 现 在 来 看 机 器 学 习 算法 。 本 章 将 介绍 在 实际 数 
据 挖掘 中 使 用 的 数据 挖掘 技 术 的 一 些 基 本 概念 。 这 里 将 不 深入 考查 一 些 很 微妙 的 问题 ， 比 
如 高 级 的 算法 版 本 、 可 能 的 优化 方法 、 在 实际 数据 挖掘 中 产生 的 复杂 问题 。 这 部 分 内 容 会 
在 第 6 章 进行 盖 述 ， 届 时 将 结合 真正 用 于 机 器 学 习 的 实现 方案 进行 讨论 ， 璧 如 与 本 书 配套 
的 数据 挖掘 开发 工具 里 的 一 些 方案 ， 以 及 在 真实 世界 中 的 应 用 。 深 入 理解 这 些 更 为 复杂 的 
问题 是 非常 重要 的 ， 这 样 才能 在 分 析 某 个 具体 数据 集 时 ， 了 解数 据 中 真正 发 生 了 什么 。 

本 章 将 研究 一 些 基本 概念 。 其 中 最 有 指导 意义 的 一 句 话 就 是 简单 的 方法 通常 能 很 好 地 
工作 。 在 分 析 实 际 数据 集 时 ， 建 议 采 用 “简单 优先 ”的 方法 论 。 数 据 集 能 够 展示 很 多 不 同 
的 、 简 单 的 数据 结构 形式 。 在 第 一 个 数据 集 里 ， 也 许 只 有 一 个 属性 承担 了 所 有 的 工作 ， 而 
其 他 的 都 是 无 关 或 元 余 的 属性 。 在 第 二 个 数据 集 里 ， 所 有 属性 也 许 是 独立 地 、 均 等 地 对 最 
终结 果 做 出 贡献 。 在 第 三 个 数据 集 里 ， 也 许 拥 有 一 个 包含 了 多 个 属性 的 简单 逻辑 结构 ， 这 
个 结构 可 以 由 一 个 决策 树 得 到 。 在 第 四 个 数据 集 里 ， 也 许 存在 一 些 独立 的 规则 ， 能 将 实例 
划分 到 不 同 的 类 。 在 第 五 个 数据 集 里 ， 也 许 展示 出 不 同 的 属性 子 集 间 的 依赖 性 。 在 第 六 个 
数据 集 里 ， 也 许 包含 了 一 些 数 值 属性 间 的 线性 依赖 关系 ， 关 键 是 要 为 各 个 属性 选择 合适 的 
权 值 ， 并 求 一 个 加 权 的 属性 值 之 和 。 在 第 七 个 数据 集 里 ， 归 类 到 实例 空间 的 具体 区 域 也 许 
要 受 控 于 实例 间 的 距离 。 在 第 八 个 数据 集 里 ， 也 许 没有 提供 类 值 ， 学 习 是 无 监督 的 学 习 。 

在 具有 无 穷 变 化 的 数据 集 里 ， 会 产生 很 多 不 同 的 数据 结构 形式 。 要 寻找 某 一 种 结构 的 
数据 挖掘 工具 ,不管 多 有 效 ， 都 可 能 会 完全 丢失 其 他 不 同 结构 的 规律 性 ， 而 这 些 结构 是 非 
常 基本 的 。 结 果 得 到 的 是 结构 复杂 的 、 难 以 理解 的 一 种 分 类 结构 ， 而 不 是 简单 的 、 优 雅 
的 、 能 够 立刻 被 理解 的 另 一 种 结构 形式 。 





上 面 所 描述 的 八 种 不 同 数据 集 形式 中 的 每 一 个 ， 都 对 应 着 一 个 适合 于 揭示 它 的 不 同 的 
机 器 学 习 方 案 。 本 章 将 分 别 对 这 些 结构 进行 讨论 。 


4.1 推断 基本 规则 


这 里 有 一 个 能 从 实例 集 里 方便 地 找 出 非常 简单 的 分 类 规则 的 方法 ， 称 为 1 规则 (1- 
mule，1R)。 它 产生 一 层 的 决策 树 ， 用 一 个 规则 集 的 形式 表示 ， 只 在 某 个 特定 的 属性 上 进 
行 测试 。1R 是 一 个 简单 、 廉 价 的 方法 ， 但 常常 能 得 到 非常 好 的 规则 用 以 描述 存在 于 数据 
中 的 结构 。 由 它 得 出 的 简单 规则 经 常 能 达到 高 得 令 人 吃惊 的 准确 率 。 也 许 这 是 因为 真实 世 
界 的 数据 集中 的 数据 结构 相当 基本 ， 仅 用 一 个 属性 就 足以 准确 地 判断 出 一 个 实例 的 类 别 。 
所 以 在 任何 事例 上 ， 首 先 尝试 采用 最 简单 的 方法 总 是 一 个 好 计划 。 

想法 是 : 建立 一 个 只 对 单个 属性 进行 测试 的 规则 ， 并 应 用 于 不 同 的 分 支 。 每 一 个 分 支 
对 应 一 个 不 同 的 属性 值 。 分 支 的 类 就 是 训练 数据 在 这 个 分 支 上 出 现 最 多 的 类 。 这 种 方法 能 
够 容易 地 计算 出 规则 的 误差 率 。 只 需 计算 在 训练 数据 上 产生 的 错误 ， 即 统计 不 属于 多 数 类 
的 实例 数量 。 
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每 一 个 属性 都 会 产生 一 个 不 同 的 规则 集 ， 每 条 规则 对 应 这 个 属性 的 每 个 值 。 对 每 一 个 
属性 的 规则 集 的 误差 率 进行 评估 ， 从 中 选 出 性 能 最 好 的 一 个 。 就 是 这 么 简单 ! 图 4-1 是 用 
伪 代 码 形式 表示 的 算法 。 





对 于 每 一 个 属性 
对 于 该 属性 的 每 个 属性 值 ， 按 如 下 方式 产生 一 条 规则 : 
计算 每 个 类 别 出 现 的 次 数 
找 出 最 频繁 的 类 别 
产生 一 条 规则 将 该 类 别 分 配给 该 属性 值 
计算 规则 的 误差 率 
选择 误差 率 最 小 的 规则 








图 4-1 1R 伪 代 码 


这 里 用 表 1-2 的 天 气 数据 来 研究 TR 是 如 何 工 作 的 〈 在 讨论 学 习 算 法 如 何 工作 时 ,我 
们 将 多 次 采用 这 个 数据 ) 。 为 了 在 最 后 一 列 ，play， 得 到 分 类 结果 。1R 将 考虑 4 个 规则 集 ， 
一 个 属性 对 应 一 个 规则 集 。 表 4-1 列 出 了 这 些 规则 。 星 号 表示 采用 一 个 随机 的 选择 ， 因 为 
规则 产生 两 个 可 能 性 相等 的 结论 。 给 出 每 个 规则 产生 的 错误 分 类 的 数量 ， 以 及 整个 规则 集 
产生 的 错误 分 类 的 数量 。1R 选择 所 产生 的 规则 集 的 错误 数量 最 小 的 属性 ， 就 是 第 一 个 和 
第 三 个 规则 集 。 可 以 从 两 个 规则 集中 任 选 一 个 ， 如 


outlook: sunny ^ no 
overcast ~ yes 
rainy > yes 


表 4-1 评估 天 气 数据 中 的 属性 





属性 规则 错误 总 错误 

1 outlook sunny—no 2/5 4/14 
overcast—ryes 0/4 
rainy—yes 2/5 

2 temperature hot—no * 2/4 5/14 
mild—yes 2/6 
cool—yes 1/4 

3 humidity high—no 3/7 4/14 
normal—»yes 1/7 

4 windy false—yes 2/8 5/14 
true—no * 3/6 


* 出 现 两 个 相等 的 结果 时 随机 选择 一 个 值 


注意 ， 在 一 开始 就 没有 对 天 气 数 据 所 涉及 的 活动 做 出 特别 说 明 。 从 得 出 的 结论 看 非常 
奇怪 ， 似 乎 在 多 云 或 者 雨天 才能 进行 这 项 活动 ， 晴 天 却 不 适合 。 也 许 这 是 一 项 室内 活动 。 


4.1.1 缺失 值 和 数值 属性 


尽管 1R 是 一 个 非常 基本 的 学 习 方 法 ， 但 是 它 适 用 于 缺失 值 和 数值 属性 。1R 处 理 缺 失 
值 和 数值 属性 的 方法 既 简单 又 高 效 。 把 缺失 作为 另 一 个 属性 值 ， 例 如 ， 如 果 天 气 数 据 在 
outlook 属性 上 存在 缺失 值 ， 那 么 在 outlook 属性 上 产生 的 规则 集 将 指定 4 个 可 能 的 类 值 ， 
分 别 为 sunny overcast, rainy, $4 个 为 missing (缺失 ) 。 

我 们 可 以 采用 一 个 简单 的 离散 化 方法 将 数值 属性 转换 成 名 目 属性 。 首 先 ， 将 训练 样本 
按照 数值 属性 的 值 进行 排序 ， 产 生 一 个 类 值 的 序列 。 例 如 ， 根 据 temperature 属性 值 对 数值 
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版 本 的 天 气 数据 ( 见 表 1-3) 进行 排序 后 产生 的 序列 如 下 : 
64 65 68 69 70 71. 72. 72 75 75 80 81 83 85 
yes no yes yes yes no no yes yes yes no yes yes no 


离散 化 是 通过 在 这 个 序列 上 放置 断 点 来 达到 分 隔 的 目的 。 一 个 可 行 的 方法 是 在 类 值 发 
生变 化 处 放置 断 点 ， 产 生出 8 个 区 间 : 

yes | no | yes yes yes | no no | yes yes yes | no | yes yes | no 

将 断 点 设置 在 两 边 样 本 之 间 的 中 间 位 置 ， 即 64.5, 66.5, 70.5, 72, 77.5, 80.5, 
84。 然 而 ， 两 个 属性 值 为 72 的 实例 产生 了 一 个 问题 ， 因 为 拥有 相同 temperature 值 ， 却 属 
于 不 同 的 类 别 。 最 简单 的 解决 办 法 是 将 处 于 72 的 断 点 向 右 移 一 个 ， 新 的 断 点 将 是 73. 5， 
从 而 产生 一 个 混合 的 部 分 ， 其 中 no 是 多 数 类 。 

离散 化 存在 的 一 个 严重 问题 是 ， 有 可 能 形成 大 量 的 类 别 。1R 算法 将 自然 地 倾向 于 选 
择 能 被 分 裂 成 很 多 区 间 的 属性 ， 因 为 它 会 将 数据 集 分 裂 成 很 多 部 分 ， 所 以 实例 与 它们 各 自 
所 在 部 分 的 多 数 类 同属 一 类 的 可 能 性 增 大 。 事 实 上 ， 一 个 极端 的 例子 是 每 个 实例 中 一 个 属 
性 拥有 一 个 不 同 的 值 。 如 标识 码 (identification code) 属性 表示 实例 是 唯一 的 ， 它 在 训练 
数据 上 产生 的 错误 率 是 0， 因 为 每 个 部 分 只 有 一 个 实例 。 当 然 ， 高 度 分 支 的 属性 通常 不 能 
在 测试 样本 上 有 很 好 的 表现 。 实 际 上 标识 码 属 性 不 可 能 在 训练 实例 以 外 的 样本 上 产生 正确 
的 预测 。 这 种 现象 称 为 过 度 拟 合 (overftting) ; 58 1 章 已 经 讨论 过 要 避免 过 度 拟 合 偏差 ， 
在 以 下 的 章节 里 我 们 将 不 断 地 遇 到 这 个 问题 。 

对 于 1R 算法 ， 当 一 个 属性 存在 大 量 可 能 值 时 ， 过 度 拟 合 就 很 有 可 能 发 生 。 所 以 ， 当 
离散 化 一 个 数值 属性 的 时 候 ， 需 要 采用 一 条 规则 ， 这 条 规则 规定 了 每 个 区 间 上 的 多 数 类 样 
本 所 必须 达到 的 最 小 数量 。 如 果 设 置 的 最 小 样本 数量 是 3， 那 么 上 面 的 区 间 将 只 剩 下 2 个 。 
划分 过 程 将 由 以 下 形式 开始 : 

yes no yes yes | yes 
在 第 一 个 区 间 里 ， 确 保 多 数 类 yes 出 现 3 次 。 然 而 紧 接着 的 实例 也 是 yes， 所 以 将 它 包括 进 
第 一 个 区 间 也 不 会 产生 任何 损失 。 新 产生 的 分 离 结果 是 : 

yes no yes yes yes | no no yes yes yes | no yes yes no 

这 样 除 了 最 后 一 个 区 间 外 ， 每 一 个 区 间 至 少 包 括 3 个 属于 多 数 类 的 实例 ， 通 常 在 最 后 
一 个 区 间 会 出 现 少 于 3 个 多 数 类 实例 的 情况 。 分 隔 的 边界 一 般 要 落 在 两 个 不 同类 的 样本 
之 间 。 

当 相 邻 的 区 间 拥 有 相同 的 多 数 类 时 ， 如 第 一 个 和 第 二 个 区 间 ， 将 它们 合并 之 后 并 不 会 
影响 规则 集 的 意义 。 所 以 ， 最 终 的 离散 化 结果 是 : 


yes no yes yes yes no no yes yes yes | no yes yes no 


从 中 产生 的 规则 集 是 : 


temperature: € 77.5 > yes 
> 77.5 ^ no 


第 二 个 规则 包含 一 个 任意 的 选择 ， 这 里 选择 no。 如 果 选 择 yes， 正 如 此 例 所 示 ， 将 没 
有 必要 使 用 任何 断 点 ， 使 用 相 邻 的 类 别 来 打破 平局 更 加 合适 。 实 际 上 ， 这 个 规则 在 训练 数 
据 集 上 产生 了 5 个 错误 ， 不 如 前 面 在 outlook 属性 上 产生 的 规则 有 效 。 用 同样 的 方法 在 hu- 
midity 属性 上 产生 的 规则 如 下 : 


humidity: < 82.5 > yes 
> 82.5 and < 95.5 + no 
> 95.5 > yes 


86 
i 
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这 个 规则 在 训练 集 上 只 产生 了 3 个 错误 ， 它 是 表 1-3 数据 上 最 好 的 1 规则 。 
最 后 ， 如 果 一 个 数值 属性 存在 缺失 值 ， 就 为 它们 建立 一 个 额外 的 区 间 ， 并 且 只 在 那些 
已 经 定义 了 属性 值 的 实例 上 运用 离散 化 过 程 。 


4.1.2 讨论 


在 一 篇 标题 为 “Very Simple classification rules perform well on most commonly used data- 
sets”( 在 大 多 数 常用 数据 集 上 表现 良好 的 极 简单 的 分 类 规则 ) (Holte, 1993) 的 研讨 论 
文中 ,报告 了 在 16 个 数据 集 上 对 1R 性 能 的 深入 研究 ， 这 16 个 数据 集 经 常 被 机 器 学 习 
研究 人 员 用 来 评估 他 们 的 算法 。 在 这 项 研究 中 使 用 了 交叉 验证 (cross-validation), XPF 
评估 技术 将 在 第 5 章 介 绍 ， 用 来 确保 测试 结果 可 作为 从 独立 测试 集 上 所 能 获得 的 结论 的 
代表 。 经 测试 ， 在 每 一 个 数值 属性 段 里 ， 最 小 的 样本 数量 设 为 6， 而 不 是 上 面 所 演示 
的 3。 

令 人 惊奇 的 是 ， 尽 管 1R 非常 简单 ， 但 是 它 的 表现 却 异 常 突出 ， 甚 至 可 以 与 经 典 的 机 
器 学 习 算法 相 媲 美 。 在 几乎 所 有 的 数据 集 上 ， 它 产生 的 准确 率 只 比 由 经 典 的 决策 树 归 纳 方 
案 产生 的 决策 树 的 准确 率 低 几 个 百分点 。 这 些 决策 树 通常 比 1R 产生 的 规则 大 很 多 。 只 对 
单个 属性 进行 测试 的 规则 往往 可 以 成 为 一 个 复杂 结构 的 奉 代 ， 在 确定 了 性 能 基线 的 情况 
下 ， 建 议 采 用 “简单 优先 ”的 方法 ， 首 先 使 用 简单 、 基 本 的 技术 ， 然 后 再 将 它 发 展 成 更 加 
精细 的 学 习 方案 。 显 然 ， 对 精细 学 习 方 案 所 产生 的 结果 进行 解释 更 为 困难 。 

IR 方法 学 到 了 一 个 一 层 的 决策 树 ， 它 的 叶子 代表 不 同 的 类 。 一 个 表达 力 稍 强 的 技术 
是 对 每 类 使 用 一 个 不 同 的 规则 。 每 一 个 规则 是 几 个 测试 的 逻辑 与 ， 每 个 测试 与 一 个 属性 相 
对 应 。 对 于 数值 属性 ， 测 试 将 检查 属性 值 是 否 在 一 个 给 定 的 区 间 里 ; 对 于 名 目 属 性 将 检查 
属性 值 是 否 在 一 个 属性 值 的 子 集 里 。 有 两 种 形式 的 测试 ， 区 间 和 子 集 ， 是 从 属于 每 个 类 的 
训练 数据 上 学 到 的 。 对 于 数值 属性 ， 区 间 的 端点 是 那个 类 别 的 训练 数据 上 出 现 的 最 大 值 和 
最 小 值 。 对 于 名 目 属性 ， 子 集 只 包含 与 类 相对 应 的 实例 里 该 属性 出 现 的 值 。 表 达 不 同类 的 
规则 经 常会 重 释 ， 在 预测 阶段 ， 使 用 满足 测试 条 件 最 多 的 规则 进行 预测 。 这 些 简 单 的 技术 
通常 能 对 一 个 数据 集 给 出 有 用 的 第 一 印象 。 它 的 处 理 速度 极 快 ， 能 够 在 极其 庞大 的 数据 上 
应 用 。 


4.2 统计 建 模 


IR 方法 使 用 单个 属性 作为 决策 的 依据 ， 并 且 选 择 其 中 工作 性 能 最 好 的 那个 属性 。 另 
一 个 简单 技术 是 对 于 一 个 给 定 的 类 ,使 用 所 有 属性 ， 让 它们 对 决策 做 出 同等 重要 、 彼 此 独 
立 的 贡献 。 当 然 ， 这 是 不 现实 的 ， 现 实数 据 集 里 的 属性 并 不 同等 重要 ， 也 不 彼此 独立 。 但 
是 它 引 出 了 一 个 简单 方案 ， 并 且 在 实际 中 表现 极 佳 。 

表 4-2 是 天 气 数据 的 汇总 ， 它 统计 了 每 种 属性 - 值 对 和 play 的 每 个 属性 值 (yes 和 
no) 一 同 出 现 的 次 数 。 例 如 ， 从 表 1-2 中 可 以 发 现 ，outlook 属性 为 sunny 的 5 个 样本 中 ，2 
个 样本 的 play 2 yes, 3 个 样本 的 play =no。 表 4-2 中 第 一 行为 每 个 属性 所 有 可 能 值 简单 记 
录 了 这 样 的 出 现 次 数 ， 最 后 一 列 的 play 数字 统计 了 yes 和 no 总 共 出 现 的 次 数 。 表 4-2 的 下 
半 部 分 是 以 分 数 形式 ,或 者 用 观察 到 的 概率 改写 了 同样 的 信息 。 例 如 ，play 是 yes 的 天 数 
是 9， 其 中 outlook 是 sunny 有 2 天 ， 由 此 产生 的 分 数 是 2/9。 对 于 ( 表 4-2 中 的 ) play 列 ， 
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分 数 则 有 不 同 的 含义 ， 它 们 分 别 为 play 属性 值 是 yes 和 no 的 天 数 在 总 天 数 中 所 占 的 百 
分 比 。 
假设 遇 到 如 表 4-3 所 示 的 一 个 新 样本 。 我 们 认为 表 4-2 中 的 5 个 属性 : outlook, tem- 
perature, humidity, windy 以 及 play 为 yes 或 no 的 总 体 似 然 ， 是 同等 重要 、 彼 此 独立 的 ， 
并 将 与 其 对 应 的 分 数 相 乘 。 察 看 结果 为 yes 的 情形 ， 有 
yes 的 似 然 22/9 x3/9 x3/9 x3/9 x9/14 =0. 0053 


表 4-2 ”拥有 统计 数 和 概率 的 天 气 数 据 














outlook temperature humidity windy play 
yes no | yes no yes no | yes no | yes no 
sunny 2 3 hot 2 2 high 3 4 false 6 2 9 5 
overcast 4 0 mild 4 2 normal 6 1 true 3 3 
rainy 3 2 cool 3 1 
sunny 2/9 3/5 hot 2/9 2/5 high 3/9 4/5 false 6/9 2/5 9/14 5/14 
overcast 4/9 0/5 mild 4/9 2/5 normal 6/9 1/5 true 3/9 3⁄5 
rainy 3/9 2/5 cool 3/9 1/5 
34-3 新 的 一 天 
outlook temperature humidity windy play 
Sunny cool high true 2 


这 些 分 数 是 根据 新 的 一 天 的 属性 值 ， 从 表 4-2 中 取出 与 yes 相对 应 的 值 ， 最 后 的 9/14 是 
play 为 yes 的 天 数 占 总 天 数 (14K) 的 百分比 。 对 结果 为 no 进行 类 似 的 计算 ， 将 得 到 : 

no 的 似 然 =3/5 x 1/5 x 4/5 x3/5 x5/14 =0. 0206 
可 以 看 出 ， 对 于 这 个 新 的 一 天 ，play 是 no 的 可 能 性 是 yes 89 4 倍 。 通 过 规范 化 将 这 两 个 结 
果 转 换 成 概率 ， 使 它们 的 概率 之 和 为 1: 





x 0.0053 _ 
yes 的 概率 = 0053 «0.0206 = 225% 
no Ayia. 0.0200, 50 


~ 0. 0053 + 0. 0206 
这 个 简单 且 直 观 的 方法 基于 有 条 件 概率 的 贝 叶 斯 规则 。 贝 叶 斯 规则 指出 ， 如 果 存 在 一 
个 假说 五 ， 和 基于 假说 的 证 据 E， 那 么 
_ Pr[E | H]Pr[ H] 


Pr[H| E] = P(E] 


Pr[4] 指 事件 4 发 生 的 概率 ，Pr[4 |B] 是 另 一 事件 B 发 生 的 条 件 下 ,事件 4 RAW 
概率 。 假 说 万 为 玩 的 结果 是 yes， 那 么 PH |E] 将 是 20.5% ， 正 如 前 面 计算 所 得 。 证 据 
E 是 新 的 一 天 的 属性 值 的 特定 组 合 : outlook = sunny, temperature = cool, humidity = high , 
windy = true。 这 4 个 证 据 分 别 用 E,、E,、E; 和 表示。 假设 这 些 证 据 是 独立 的 (对 于 给 
出 的 类 ) ， 将 概率 相 乘 后 就 得 到 它们 的 组 合 概率 : 

Pr[ E, | yes] x Pr[ E, | yes] x Pr[ E, | yes] x Pr[ E, | yes] x Pr[ yes] 
Pr[ E] 

不 需要 考虑 分 母 ， 因 为 分 母 会 在 最 后 的 规范 化 步 又 (使 yes 和 no 的 概率 之 和 为 1) 里 

被 消除 。 最 后 的 Prlyes] 是 在 不 知道 任何 证 据 5 的 情况 下 ， 结 论 是 yes 的 概率 ， 也 就 是 对 





Pr[ yes |E] = 
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于 所 涉及 的 特定 日 期 的 情况 一 无 所 知 ， 称 为 假说 五 的 先 验 概率 (prior probability) 。 在 这 个 
例子 里 ， 是 9/14， 因 为 14 个 训练 样本 里 有 9 个 样本 的 play 的 值 是 yes。 将 证 据 的 概率 替换 
成 表 4-2 中 相应 的 分 数 得 到 : 

_ 2/9 x 3/9 x 3/9 x 3/9 x 9/14 


Pr[ yes | E] = Pri E] 


和 前 面 计算 的 一 样 。 分 母 Pr[ E] 将 在 进行 规范 化 时 消失 。 

这 种 方法 称 为 朴素 贝 叶 斯 (Naive Bayes) ， 因 为 它 基于 贝 叶 斯 规则 并 “朴素 ”地 假设 
(属性 ) 独立 。 只 有 当 事 件 彼此 独立 时 ， 概 率 相 乘 才 是 有 效 的 。 在 现实 生活 中 ， 属 性 独立 
的 假设 肯定 是 过 于 简单 的 假设 。 尽 管 有 些 名 不 符 实 ， 但 在 实际 数据 集 上 进行 测试 时 ， 朴 素 
贝 叶 斯 工作 得 非常 好 ， 特 别 是 当 与 一 些 在 第 7 章 将 要 介绍 的 属性 选择 程序 相 结合 后 ， 属 性 
选择 程序 可 去 除数 据 中 的 一 些 元 余 造 成 的 非 独 立 的 属性 。 

如 果 某 个 属性 值 没有 与 每 一 个 类 值 一 起 出 现在 训练 集 里 ， 那 么 朴素 贝 叶 斯 法 将 会 出 
错 。 假 设 ， 在 天 气 数据 中 ， 所 有 训练 数据 的 属性 值 outlook = sunny， 总 是 伴随 着 结论 no. 
那么 属性 值 outlook = sunny 为 yes 的 概率 Pr[ outlook = sunny | yes] 是 0， 因 为 其 他 概率 将 与 
这 个 0 相 乘 ， 所 以 不 管 其 他 的 概率 有 多 人 么 大 ， 最 终 yes 的 概率 都 将 是 0。 概 率 0 超过 其 他 
的 概率 掌握 了 否决 权 。 这 不 是 一 个 好 现象 。 然 而 ， 可 对 利用 频率 来 计算 概率 的 方法 进行 一 
些小 的 调整 ， 就 可 以 很 容易 地 弥补 这 个 缺陷 。 

例如 ， 如 表 4-2 上 半 部 分 所 示 ， 对 于 play =yes, A 2 个 样本 的 outlook 是 sunny; 4 个 
样本 的 outlook 是 overcast, 3 个 样本 的 outlook 是 rainy， 下 半 部 分 给 出 了 这 些 事件 的 概率 ， 
分 别 是 2/9、4/9 和 3/9。 我 们 可 以 在 每 一 个 分 子 上 加 1， 并 且 在 分 母 上 加 3 进行 补偿 ， 所 
以 得 到 的 概率 分 别 为 3A12、5/12 和 4/12。 这 将 保证 当 一 个 属性 值 出 现 0 次 时 ， 得 到 一 个 
很 小 的 但 非 0 的 概率 。 在 每 一 个 计数 结果 上 加 1 的 方法 是 一 个 标准 的 技术 ， 称 为 拉 普 拉 斯 
估计 器 (Laplace estimator) ， 它 出 自 18 世纪 伟大 的 法 国 数学 家 Pierre Laplace。 尽 管 它 在 实 
际 中 能 很 好 地 工作 ， 但 是 也 没有 特别 的 理由 需要 在 计数 结果 上 加 1。 可 以 使 用 一 个 很 小 的 
常量 4 取代 它 : 





$+ dog 3 +p/3 

9+u > O+p 9-4u 
这 里 将 风 设 为 3， 它 有 效 地 提供 了 一 个 权 值 ， 这 个 权 值 决定 了 一 个 先 验 值 (1/3, 1/3 和 1/ 
3) 对 每 个 可 能 属性 值 的 影响 力 。 与 训练 数据 集 的 一 个 新 的 证 据 相 比 ， 大 的 人 值 说 明 这 些 
先 验 值 是 非常 重要 的 ， 而 小 的 值 则 说 明 先 验 值 的 影响 力 较 小 。 最 后 ， 并 没有 特别 的 理由 
在 分 子 部 分 将 几 平 均 地 分 成 3 份 ， 所 以 可 以 使 用 以 下 形式 替代 : 

2 tup 4 + up ,3 + up, 

9cu' O+p 9+u 
XXH p, p Ap, 之 和 为 1。 这 3 个 数值 分 别 是 属性 outlook HJIR sunny, overcast 和 rainy 
时 的 先 验 概率 。 

现在 它 是 一 个 完整 的 贝 叶 斯 公式 ， 先 验 概率 已 经 分 配 到 每 一 个 所 见 到 的 属性 值 。 它 的 

优点 是 十 分 严密 ， 但 缺点 是 通常 并 不 清楚 应 该 如 何 分 配 先 验 概率 。 在 实践 中 ， 只 要 训练 实 
例 的 数量 合理 ， 使 用 不 同 的 先 验 概率 几乎 没有 差别 。 人 们 通常 用 拉 普 拉 斯 估计 器 估计 频 
率 ， 将 计数 结果 初始 化 为 1 而 不 是 0。 











PAE 算法 : 基本 方法 67 





4.2.1 缺失 值 和 数值 属性 


使 用 贝 叶 斯 公式 的 一 个 优势 是 : 处 理 缺 失 值 并 不 是 难题 。 例 如 ， 如 果 表 4-3 样本 中 

outlook 的 属性 值 是 缺失 值 ， 计 算 时 只 需要 省 略 这 个 属性 ， 结 果 是 : 
yes 的 似 然 =3/9 x 3/9 x 3/9 x 9/14 = 0.0238 
no 的 似 然 =1/5 x 4/5 x 3/5 x 5/14 = 0. 0343 

这 两 个 值 分 别 比 前 面 的 计算 值 要 高 出 很 多 ， 原 因 是 缺少 了 其 中 的 一 个 分 数 。 但 这 并 不 会 成 
为 问题 ， 因 为 两 个 公式 都 缺少 一 个 分 数 ， 这 些 似 然 还 要 被 进一步 规范 化 。 最 终 产生 的 yes 
和 no 的 概率 分 别 是 41% 和 59% 。 

在 一 个 训练 实例 中 ， 如 果 一 个 属性 值 缺 失 ， 它 就 不 被 包括 在 频率 计数 中 ， 概 率 的 计算 
取决 于 真正 出 现 属性 值 的 训练 实例 的 个 数 ， 而 不 是 训练 实例 的 总 数 。 

在 处 理 数值 时 ， 通 常 把 它们 假设 成 拥有 “ 正 态 ” (normal) 或 者 “高 斯 ” (Gaussian ) 
的 概率 分 布 形 式 。 表 4-4 对 天 气 数据 做 了 总 结 ， 其 中 数值 属性 数据 来 源 于 表 1-3。 对 于 名 
目 属性 的 计算 方法 和 以 前 一 样 ; 对 于 数值 属性 ， 只 需 列 出 所 有 出 现 的 值 。 然 后 ， 名 目 属性 
的 统计 值 经 规范 化 成 为 概率 ; 而 数值 属性 ， 则 计算 每 一 个 数值 属性 在 每 一 个 类 上 的 平均 值 
和 标准 差 。 所 以 ， 所 有 类 值 为 yes 的 实例 在 属性 temperature. 上 的 平均 值 是 73， 标 准 差 是 
6. 2。 这 里 的 平均 值 是 简单 的 属性 值 的 均值 (数值 属性 在 同一 个 类 上 的 )， 也 就 是 (在 同 
一 个 类 上 的 ) 属性 值 之 和 除 以 属性 值 的 个 数 。 标 准 差 是 样本 方差 的 平方 根 ， 计 算 方法 为 : 
将 每 一 个 属性 值 减 去 平均 值 后 进行 平方 ， 然 后 求 和 ， 最 后 除 以 属性 值 的 个 数 减 1。 在 求 出 
这 个 样本 的 方差 后 ， 再 对 方差 取 平 方 根 得 到 标准 差 。 这 是 对 数据 集 计 算 平 均值 和 标准 差 的 
标准 方法 (“ 减 1” 是 为 了 得 到 样本 的 自由 度 ， 这 是 一 个 统计 学 概念 ， 这 里 将 不 再 深入 介 
绍 ) 。 


表 4-4 有 统计 汇总 的 数值 天 气 数 据 














outlook temperature humidity windy play 
yes no yes no | yes no | yes no yes no 
sunny 2 3 83 85 86 85 false 6 2 9 5 
overcast 4 0 70 80 96 90 true 3 3 
rainy 3 2 68 65 80 70 
64 72 65 95 
69 71 70 91 
75 80 
75 70 
72 90 
81 75 
sunny 2/9 3/5 平均 73 74.6 平均 79.1 86.2 false 6/9 2/5 9/14 5/14 
overcast 4/9 0⁄5 标准 差 6.2 7.9 标准 差 10.2 9.7 tme 3/9 3⁄5 
rainy 3/9 2/5 


对 于 一 个 平均 值 为 和 标准 差 为 o 的 正 态 分 布 ， 它 的 概率 密度 函数 表达 式 看 似 有 些 令 
MER: 
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不 必 害 怕 ! 它 意 味 着 ， 当 属性 temperature 有 一 个 值 时 ， 壁 如 说 66， 如 果 考 虑 yes 的 结果 ， 
只 需 将 x=66, w=73 Alo 26.2 代入 公式 。 所 以 由 概率 密度 公式 得 出 的 值 为 : 
L090 
/2m x 62 
当 属性 humidity 的 值 是 90 时， 使 用 相同 方法 计算 结论 为 yes 的 概率 密度 : 
f(humidity = 90 | yes) = 0.0221 
某 个 事件 的 概率 密度 函数 与 它 的 概率 是 密切 相关 的 。 然 而 ， 它 们 并 不 是 一 回 事 。 如 果 
temperature 是 连续 的 ,那么 当 temperature 正好 是 66 或 是 其 他 任何 确定 的 值 (比如 
63.141592 62) 时 概率 就 为 0。 概 率 密度 函数 f(x) 的 真正 含义 是 指 这 个 量 落 在 x 附近 的 
一 个 很 小 区 域 里 ， 辟 如 说 ,在 x -se/2 ~x+e/2 之 间 的 概率 是 ef(x) 。 当 使 用 这 些 概率 时 ， 
你 也 许 会 认为 应 该 要 乘 以 精确 值 s， 然 而 没有 必要 。 因 为 同样 的 e 会 出 现在 yes 和 no 的 似 
然 中 ， 并 且 在 计算 概率 时 被 消除 。 
对 表 4-5 中 新 的 一 天 运用 这 些 概率 ， 得 到 : 
yes 的 似 然 =2/9 x 0.0340 x 0.0221 x 3/9 x 9/14 = 0. 000 036 
no 的 似 然 23/5 x 0.0279 x 0.0381 x 3/5 x 5/14 = 0. 000 137 
由 此 产生 的 概率 为 : 





f(temperature = 66 | yes) = 











" 0. 000 036 " 
yes 的 概率 - 7550036 «0.000137 ^ 29-86 
T 0. 000 137 = 
no 的 概率 = 9900 036 «0.000137 = "2% 
R4-5 另 一 个 新 的 一 天 
outlook temperature humidity windy play 
sunny 66 90 true ? 


这 些 数 值 与 先前 对 表 4-3. 所 示 的 新 的 一 天 的 概率 计算 结果 非常 接近 ， 因 为 属性 temperature 
和 humidity 的 属性 值 分 别 为 66 和 90 ， 与 前 面 使 用 cool 和 high 分 别 作 为 这 两 个 属性 值 时 计 
算出 的 概率 相似 。 

正 态 分 布 的 假设 很 容易 将 朴素 贝 叶 斯 分 类 器 进行 扩展 ， 使 它 能 够 处 理 数 值 属性 。 如 果 
任何 数值 属性 的 值 有 缺失 ， 那 么 平均 值 和 标准 差 的 计算 仅 基于 现 有 的 属性 值 。 


4.2.2 用 于 文档 分 类 的 朴素 贝 叶 斯 


机 器 学 习 的 一 个 重要 领域 是 文档 分 类 ， 其 中 每 一 个 实例 就 是 一 个 文档 ， 而 实例 的 类 就 
是 文档 的 主题 。 如 果 文 档 是 新 闻 ， 那 么 它 的 类 也 许可 以 是 国内 新 闻 、 海 外 新 闻 、 财 经 新 闻 
和 体育 新 闻 。 文 档 的 特性 是 由 出 现在 文档 中 的 单词 所 描述 的 ， 一 种 应 用 机 需 学 习 对 文档 分 
类 的 方法 是 用 布尔 值 属 性 表示 每 个 单词 的 出 现 或 者 空缺 。 在 文档 分 类 的 应 用 方面 ， 朴 素 贝 
叶 斯 是 一 个 深 受 欢迎 的 技术 ， 因 为 它 的 处 理 速度 快 而 且 非 常 准确 。 

然而 ， 朴 素 贝 叶 斯 忽略 了 每 个 单词 在 文档 中 出 现 的 次 数 ， 而 在 决定 一 个 文档 的 分 类 
时 ， 这 些 信息 拥有 潜在 的 重要 价值 。 而 且 ， 一 个 文档 可 以 看 成 是 一 个 词 袋 ( bag of words) 
即 一 个 集合 ， 这 个 集合 包含 文件 中 所 有 单词 ， 在 文件 中 多 次 出 现 的 单词 在 集合 中 也 多 次 出 
现 〈 从 技术 上 说 ， 一 个 集合 所 包含 的 每 个 成 员 应 是 唯一 的 ， 而 一 袋 可 以 拥有 重复 的 成 员 ) o 
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采用 一 个 改进 的 朴素 贝 叶 斯 可 以 利用 单词 的 频率 ， 这 个 改进 的 朴素 贝 叶 斯 有 时 称 为 多 项 式 
朴素 贝 叶 斯 (multinominalNaive Bayes) 。 


假设 mm , ny, c0, n, 是 单词 i 在 文档 中 出 现 的 次 数 ，P,，P,，…，P; 是 从 所 有 HH 
类 文档 中 抽样 得 到 单词 i 的 概率 。 假 设 概率 与 单词 的 上 下 文 以 及 单词 在 文档 中 的 位 置 
无 关 。 这 些 假设 产生 一 个 文档 概率 的 多 项 式 分 布 (multinomial distribution) 。 在 这 种 分 
布 中 ， 对 于 一 个 给 定 类 别 A, 文档 的 概率 ， 换 句 话说 ,计算 贝 叶 斯 规则 中 Pr[ E |H] 
的 公式 是 : 





k p." 
Pr[E |H] = NI x [| ay 
i=l i* 


RE, Nan, +m +: n, 是 文档 中 单词 的 数量 。 使 用 阶乘 的 原因 是 考虑 到 根据 词 袋 模 
型 中 每 个 单词 出 现 的 次 序 并 不 重要 。P, 是 通过 计算 在 所 有 属于 类 别 有 的 训练 文档 中 ， 
单词 i 出 现 的 相对 频率 而 得 到 的 估计 。 实 际 上 ， 应 该 再 有 一 项 ， 即 类 别 的 模型 产生 
与 五 长 度 相 等 的 文档 的 概率 ， 但 是 通常 假设 对 于 所 有 类 别 来 说 ，( 这 个 概率 ) 都 是 相 
等 的 ， 因 此 可 以 忽略 这 一 项 。 


例如 ， 假 设 单词 表 里 只 有 两 个 单词 : yellow ( 黄 ) M ble 〈 蓝 ) ， 一 个 特定 文档 类 别 H 
存在 Pr[ yellow | H] 2 7596 , Pr[blue| H] 22596. (REFER 5I] H ž yellowish green ( 黄 
绿 ) 类 文档 ) . (BAN E 是 文档 blue yellow blue, KÆ N =3 个 单词 。 存 在 4 个 可 能 的 、 拥 有 
3 个 单词 的 词 袋 。 一 个 是 [yelow yellow yellow] ， 根 据 上 面 得 出 的 公式 ， 得 到 它 的 概率 为 : 

P[ | yellow yellow yellow} | H] = 3! x 0 x 0. 25° = 2T 


! 0! 64 
其 他 3 个 的 概率 分 别 是 : 














Pr[ | blue blue blue} | H] -4 
27 
Pr[ | yellow yellow blue} | H] = 6A 


Pr[ | yellow blue blue} | H] -2 


这 里 的 与 最 后 一 种 情况 相对 应 (注意 : 在 一 个 词 袋 中 的 单词 次 序 可 以 忽略 ) ， 所 以 由 
yellowish green 文档 模型 产生 出 五 的 概率 是 9/64, 或 14%。 假如 另 一 个 类 ，very bluish 
green 文档 ( 称 它 为 H')， 拥有 的 概率 Pr[ yellow | H'] 21096, Pr[blue| H'] =90% 。 由 这 
个 模型 产生 五 的 概率 为 24% 。 

如 果 只 有 这 两 个 类 ， 是 不 是 意味 着 是 very bluish green 文档 类 呢 ? 并 不 一 定 。 根 据 
前 面 给 出 的 贝 叶 斯 规则 ， 必 须 考虑 每 一 个 假说 的 先 验 概 率 。 如 果 你 实际 上 知道 very bluish 
green 文档 罕见 程度 是 yellowish green 文档 的 两 倍 ， 这 将 足够 胜 过 14% 和 24% 的 不 同 ， 倾 
向 于 yellowish green 类 文档 。 

前 面 概率 公式 中 的 阶乘 并 不 需要 真正 计算 ， 因 为 它 对 于 每 一 类 都 是 一 样 的 ， 所 以 会 在 
规范 化 的 过 程 中 被 消去 。 然 而 ， 在 公式 里 仍然 需要 将 很 多 小 概率 相 乘 ， 这 将 迅速 产生 非常 
小 的 数值 ， 从 而 在 大 的 文档 上 造成 下 洲 。 不 过 这 种 问题 可 以 通过 对 概率 取 对 数 蔡 代 概率 本 
身 来 避免 。 
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在 多 项 式 朴 素 贝 叶 斯 公式 里 ， 判 断 一 个 文档 的 类 不 仅 要 根据 文档 中 出 现 的 单词 ， 还 要 
根据 这 些 单词 在 文档 中 出 现 的 次 数 。 对 于 文档 分 类 来 说 ， 多 项 式 朴 素 贝 叶 斯 模型 的 性 能 通 
常 优 于 普通 的 朴素 贝 叶 斯 模型 ， 尤 其 在 大 型 字典 级 的 文档 上 表现 尤其 突出 。 


4.2.3 讨论 


朴素 贝 叶 斯 法 给 出 了 一 个 简单 并 且 概 念 清晰 的 方法 ， 用 该 方法 来 表达 、 使 用 和 学 习 概 
率 的 知识 。 使 用 它 能 够 达到 很 好 的 预测 结果 。 在 许多 数据 集 上 ， 朴 素 贝 叶 斯 的 性 能 可 以 与 
一 些 更 加 成 熟 的 分 类 器 相 媲 美 ， 甚 至 会 有 更 出 色 的 表现 。 有 一 句 格言 是 ， 始 终 从 简单 的 方 
法 入手。 同样 ， 在 机 器 学 习 领 域 ， 人 们 不 断 努 力 使 用 更 精细 的 学 习 方案 想 获得 好 的 预测 结 
果 , 但 是 最 终 在 几 年 后 发 现 ， 那 些 简单 的 方法 ， 如 1R 和 朴素 贝 叶 斯 ， 能 够 得 到 同样 好 、 
甚至 更 好 的 结果 。 

朴素 贝 叶 斯 法 在 很 多 数据 集 上 的 表现 差强人意 ， 其 中 的 原因 很 容易 发 现 。 因 为 朴素 贝 
叶 斯 处 理 属性 的 时 候 ， 认 为 属性 之 间 是 完全 独立 的 ， 所 以 一 些 宛 余 的 属性 会 破坏 机 器 学 习 
过 程 。 一 个 极端 的 例子 是 ， 如 果 在 天 气 数 据 中 加 入 一 个 新 的 属性 ， 该 属性 拥有 与 属性 tem- 
perature 相同 的 值 ， 那 么 属性 temperature 的 影响 力 将 会 增加 : 属性 temperature 的 所 有 概率 
将 被 平方 ， 在 最 后 的 决策 上 具有 更 大 的 影响 力 。 如 果 在 数据 集中 加 入 10 个 这 样 的 属性 ， 
那么 最 终 的 决策 将 仅 根据 属性 temperature 而 做 出 。 属 性 之 间 的 依赖 性 不 可 避免 地 会 降低 朴 
素 贝 叶 斯 识别 数据 中 究竟 发 生 什 么 的 能 力 。 然 而 ， 这 种 情况 可 以 通过 在 决策 过 程 中 ， 采 用 
仔细 挑选 属性 子 集 的 方法 来 避免 。 第 7 章 将 阐述 如 何 选 择 属性 。 

对 于 数值 属性 ， 正 态 分 布 的 假设 是 朴素 贝 叶 斯 的 另 一 个 限制 ， 这 里 我 们 进行 一 些 说 
明 。 许 多 属性 值 并 不 呈正 态 分 布 。 然 而 ， 对 于 数值 属性 ， 我 们 也 可 以 采用 其 他 分 布 形式 ; 
正 态 分 布 并 没有 特殊 的 魔力 。 如 果 你 知道 一 个 特定 的 属性 可 能 遵循 其 他 的 分 布 形式 ， 那 么 
可 以 使 用 那 种 分 布 形式 的 标准 估计 过 程 。 如 果 你 怀疑 数值 分 布 不 是 正 态 分 布 ， 又 不 知道 真 
正 的 分 布 形式 ， 那 么 可 以 使 用 “ 核 密度 估计 ” (kernel density estimation) 过 程 ， 核 密度 估 
计 并 不 把 属性 值 的 分 布 假设 成 任何 特定 形式 的 分 布 。 另 一 种 可 行 的 处 理 方法 是 首先 将 数据 
离散 化 。 


4.3 分 治 法 : 建立 决策 树 


建立 决策 树 的 问题 可 以 用 递归 形式 表示 。 首 先 ， 选 择 一 个 属性 放置 在 根 结 点 ， 为 每 一 
个 可 能 的 属性 值 产生 一 个 分 支 。 这 将 使 样本 集 分 裂 成 多 个 子 集 ， 一 个 子 集 对 应 于 一 个 属性 
值 。 然 后 在 每 一 个 分 支 上 递归 地 重复 这 个 过 程 ， 仅 使 用 真正 到 达 这 个 分 支 的 实例 。 如 果 在 
一 个 结 点 上 的 所 有 实例 拥有 相同 的 类 别 ， 那 么 就 停止 该 部 分 树 的 扩展 。 

唯一 存在 的 问题 是 ， 对 于 一 个 给 定 的 、 拥 有 不 同类 别 的 样本 集 ， 如 何 判 断 应 该 在 哪个 
属性 上 进行 分 裂 。 再 来 看 看 天 气 数据 ， 每 次 分 裂 都 存在 4 种 可 能 性 ， 在 最 顶层 产生 的 树 如 
图 4-2 所 示 。 哪 个 才 是 最 好 的 选择 呢 ? 类 分 别 是 yes 和 no 的 实例 数量 显示 在 叶子 上 。 当 叶 
子 只 拥有 单一 类 别 yes 或 no 时 ， 将 不 必 继 续 分 裂 ， 到 达 那 个 分 支 的 递归 过 程 也 将 停止 。 因 
为 我 们 要 寻找 较 小 的 树 ， 所 以 希望 递归 过 程 尽早 停止 。 如 果 能 够 测量 每 一 个 结 点 的 纯度 ， 
就 可 以 选择 能 产生 最 纯 子 结 点 的 那个 属性 进行 分 裂 。 观 察 图 4-2， 然 后 思考 哪个 属性 是 最 
佳 选 择 。 








outlook 





c) humidity d) windy 
图 4-2 ”天 气 数据 的 3 个 树桩 


我 们 将 要 使 用 的 纯度 度量 称 为 信息 量 (information) ， 度 量 单位 是 位 (bit). ARRE 
与 树 的 每 个 结 点 相关 联 ， 代 表 期 望 的 信息 总 量 ， 用 于 说 明 到 达 这 个 结 点 的 新 实例 将 被 分 到 
yes 还 是 no 类 所 需 的 信息 总 量 。 不 同 于 计算 机 内 存 所 用 的 位 ， 这 里 所 期 望 的 信息 量 通常 包 
括 1 位 中 的 部 分 位 一 一 经 常 小 于 1! 根据 在 那个 结 点 上 yes 和 no 类 的 实例 数量 来 计算 。 我 
们 很 快 将 在 后 面 看 到 计算 的 具体 细节 。 首 先 讨 论 如 何 使 用 它 。 当 对 图 4-2 的 第 1 个 树 进行 
评估 时 ， 在 叶子 结 点 上 的 yes 和 no 类 的 实例 数量 分 别 是 [2, 3]、[4, 0] 和 [3, 2], A 
此 ， 这 些 结 点 上 的 信息 值 分 别 是 : 
info([2,3]) 20.971 4% 
info([4,0]) = 0.0 位 
info([3,2]) = 0.971 位 
计算 它们 的 平均 信息 值 ， 并 考虑 到 达 每 个 分 支 的 实例 的 数量 : 有 5 个 实例 到 达 第 1 个 
分 支 和 第 3 个 分 支 ; 4 个 实例 到 达 第 2 个 分 支 : 


info( [2,3],[4,0],[3,2]) = 2 x 0971 +a x0 +Š x 0.971 = 0.693 位 


如 图 4-2a 所 示 ， 这 个 平均 值 代表 了 期 望 的 信息 总 量 ， 即 对 一 个 新 实例 的 类 别 进 行 说 明 所 
必需 的 信息 量 。 
在 任何 初始 树 (如 图 4-2 所 示 ) 创建 之 前 ， 处 于 根 结 点 的 训练 样本 由 9 个 yes 和 5 个 
no 组 成 ， 与 之 相对 应 的 信息 值 是 : 
info([9,5]) =.0.940 位 
因此 如 图 4-2a 所 示 的 树 所 获 的 信息 增益 (information gain) 为 : 
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gain( outlook) = info([9,5]) - info([2,3],[4,0],[3,2]) = 0.940 - 0.693 = 0. 247 位 
它 能 够 解释 成 在 属性 outlook 上 建立 一 个 分 支 的 信息 值 。 

随后 的 方法 就 很 清楚 了 。 为 每 一 个 属性 计算 信息 增益 ， 选 择 获 得 最 多 信息 量 的 属性 进 
行 分 裂 。 图 4-2 的 信息 增益 分 别 是 : 

e gain(outlook) =0. 247 位 

* gain(temperature) =0. 029 位 

e gain(humidity) =0. 152 位 

e gain( windy) =0. 048 位 
所 以 在 根 结 点 选择 outlook 作为 分 裂 属 性 。 和 希望 这 个 最 佳 选 择 与 你 的 直觉 相 一 致 。 它 是 唯 
一 能 获得 一 个 全 纯 子 结 点 的 选择 ， 这 为 outlook 属性 超越 其 他 所 有 属性 赢得 了 相当 大 的 优 
势 。humidity 属性 是 第 2 个 最 佳 选 择 ， 因 为 它 产 生 了 一 个 几乎 是 全 纯 且 较 大 的 子 结 点 。 

接着 继续 进行 递归 过 程 。 图 4-3 显示 了 在 outlook 属性 值 为 sunny 的 结 点 上 的 进一步 分 
支 的 可 能 性 。 很 明显 ， 在 属性 outlook 上 的 再 次 分 裂 不 会 发 生 任何 新 的 变化 ， 所 以 仅 考虑 
其 他 3 个 属性 。 在 这 3 个 属性 上 产生 的 信息 增益 分 别 为 : 

* gain(temperature) =0. 571 位 

èe gain(humidity) =0. 971 位 

* gain( windy) =0. 020 位 





a) temperature b) humidity c) windy 
图 4-3 ”天气 数据 的 扩展 树桩 


因此 选择 humidity 属性 作为 在 这 一 结 点 的 分 裂 属性 。 在 随 之 产生 的 子 结 点 上 并 不 需要 进 一 
步 分 裂 ， 所 以 这 个 分 支 就 结束 了 。 

继续 应 用 这 样 的 思想 方法 ， 将 产生 关于 
天 和 气 数据 的 决策 树 ， 如 图 4-4 所 示 。 理 想 的 停 
止 条 件 是 所 有 叶子 结 点 都 是 纯 的 ， 也 就 是 当 
叶子 结 点 包含 的 实例 拥有 相同 的 类 别 时 。 然 
而 ， 也 许 并 不 可 能 达到 这 种 理想 状态 ， 因 为 
当 训练 集 里 包含 2 个 拥有 相同 属性 值 ， 但 是 
属于 不 同类 别 的 样本 时 ， 递 归 过 程 将 不 可 能 
停止 。 所 以 ， 应 停止 分 裂 当 数据 不 能 被 进 一 
步 分 裂 时 。 或 者 当 某 属 性 的 信息 增益 为 零 时 ， 图 4-4 天 气 数据 的 决策 树 
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分 裂 停 止 。 这 种 判断 分 裂 是 否 停 止 的 方法 更 加 保守 ， 因 为 采用 这 种 判断 方法 有 可 能 导致 出 
现 这 样 的 情况 : 一 个 数据 集 被 分 裂 为 两 个 具有 同样 类 分 布 的 子 集 ， 而 这 样 的 分 裂 方 式 可 以 
使 得 信息 增益 为 零 。 


4.3.1 计算 信息 量 


现在 讨论 如 何 计算 用 于 对 不 同 分 裂 进行 评估 的 信息 量 。 本 节 将 描述 基本 的 思想 ， 下 一 
节 将 考察 一 个 修正 的 方法 ， 它 通常 是 用 来 克服 对 那些 存在 众多 可 能 值 的 属性 进行 分 裂 选 择 
时 的 偏差 。 
一 个 给 定 的 样本 到 达 某 个 含有 一 定数 量 的 yes 实例 和 no 实例 的 结 点 ， 在 考察 对 这 个 样 
本 进行 分 类 所 需 的 信息 总 量 计算 公式 之 前 ， 首 先 考虑 我 们 期 望 这 个 量 值 所 拥有 的 属性 : 
1) 当 yes 或 者 no 的 实例 数量 为 0 时 ,信息 量 为 0。 
2) 当 yes 和 no 的 实例 数量 相同 时 ， 信 息 量 达 到 最 大 。 
另外 ， 这 种 量度 不 仅 能 够 应 用 在 二 类 问题 上 ， 而 且 还 要 能 应 用 在 多 类 问题 上 。 
信息 测量 与 制定 决策 所 获得 的 信息 量 相关 ， 考 虑 决策 的 本 质 能 获得 更 为 微妙 的 信息 特 
性 。 决 策 能 够 一 次 性 做 出 ， 或 者 分 几 个 阶段 做 出 ， 在 两 种 情况 下 包含 的 信息 量 是 相同 的 。 
例如 : 
info( [2,3,4]) 
中 包含 的 决策 ， 这 种 情况 所 包含 的 决策 可 由 2 个 阶段 做 出 。 首 先决 定 是 否 为 第 一 种 情形 ， 
或 者 是 其 他 两 种 情形 中 的 一 种 : 
info( [2,7 ]) 
然后 决定 其 他 两 种 情形 是 什么 : 
info( [3,4]) 
有 些 时 候 ， 不 需要 做 第 二 步 决 策 ， 即 当 决 策 结 果 为 第 一 种 情形 时 。 考 虑 这 些 因 素 后 产生 如 
下 等 式 : 
info([2,3,4]) = info([2,7]) + (7/9) x info([3,4]) 
当然 ， 这 些 数字 并 没有 特殊 的 含义 ， 忽 略 这 些 真 实 值 ， 与 此 类 似 的 关系 一 定 是 成 立 的 。 由 
此 可 以 在 先前 的 清单 上 增加 一 条 标准 : 
3) 信息 必须 遵循 如 上 所 示 的 多 阶段 特性 。 
令 人 惊喜 的 是 ， 只 用 一 个 函数 就 能 满足 所 有 这 些 特 性 ， 这 称 为 信息 值 (information 
value) 或 者 (entropy): 
entropy(Pi ,p;,*,p,) = — pilogp, -pzlogp… - p,logp, 
NTS EA pa. pa. cr. Pa DGIO ft, DRLECARE SC ER AL IE CS — ROSE SCR JE 
A2, WEL EACH, SURGE ETT ROLE EZ. 
RGA AEB pi, pr, cn. p, 为 分 数 ， 它 们 的 和 为 1， 例如 : 
info([2,3,4]) = entropy( 2,2, £) 


因此 多 阶段 的 决策 特性 通常 写成 如 下 形式 : 


entropy(p,q,r) = entropy(p,q +r) +(q+r) x entropy( 了 4 一 | 





这 里 p+g+r=1。 
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因为 采用 对 数 计算 方法 ， 所 以 信息 量度 量 计算 不 需要 计算 各 个 分 数 ， 例 如 : 
info([2,3,4]) = - 2/9 x log2/9 -3/9 x log3/9 - 4/9 x log4/9 
= [-21og2 - 3log3 - 4log4 + 91og9 ]/9 
这 是 在 实际 中 通用 的 信息 量度 量 计 算 方法 。 所 以 图 4-2a 中 的 第 一 个 叶子 结 点 的 信息 值 是 : 
info([2,3]) 2-2/5 x log2/5 - 3/5 x log3/5 = 0.971 位 


4.9.2 高 度 分 支 属 性 


当 某 些 属性 拥有 的 可 能 值 的 数量 很 大 ， 从 而 使 分 支 的 路 径 增 加 ， 产 生 很 多 子 结 点 时 ， 
计算 信息 增益 就 会 出 现 问题 。 这 个 问题 可 以 通过 一 个 极端 的 例子 来 说 明 ， 当 数据 集 的 某 个 
属性 对 于 每 一 个 实例 存在 不 同 的 属性 值 时 ， 辟 如， 标识 码 属性 。 

表 4-6 给 出 了 带 有 额外 属性 的 天 气 数据 。 图 4-5 是 对 ID code 属性 进行 分 裂 来 产生 树 
桩 。 给 定 这 个 属性 的 值 ， 说 明 类 所 需 的 信息 量 是 : 

info([0,1]) + info([0,1]) +info([1,0]) +… +info([1,0]) + info([0,1]) 


R4-6 ” 带 有 标识 码 的 天 气 数据 





ID code outlook temperature humidity windy play 
a sunny hot high false no 
b sunny hot high true no 
c overcast hot high false yes 
d rainy mild high false yes 
e rainy cool normal false yes 
f rainy cool normal true no 
g overcast cool normal true yes 
h sunny mild high false no 
i sunny cool normal true yes 
j rainy mild normal false yes 
k sunny mild normal true yes 
l overcast mild high true yes 
m overcast hot normal false yes 
n rainy mild high true no 





图 4-5 ID code 属性 的 树桩 


由 于 14 项 中 的 每 一 项 都 是 0， 所 以 信息 量 为 0。 这 个 结果 并 不 奇怪 : ID code 属性 能 够 
区 别 每 个 实例 ， 所 以 它 能 确定 类 别 ， 而 且 不 会 出 现任 何 模棱两可 的 情况 ， 如 表 4-6 所 示 。 
所 以 这 个 属性 的 信息 增益 就 是 在 根 结 点 上 的 信息 量 ， 即 info([9, 5]) 20.940 位 。 它 比 在 
其 他 任何 属性 上 获得 的 信息 增益 都 要 大 ， 训 无 疑问 ID code 将 被 选 为 分 裂 属性 。 但 是 在 标 
识 码 属性 上 的 分 支 对 预测 未 知 实例 的 类 别 并 没有 任何 帮助 ， 也 没 能 描述 任何 有 关 决 策 的 结 
构 ， 而 这 两 点 正 是 机 器 学 习 的 双重 目标 。 

由 此 可 见 ， 采 用 度量 信息 增益 的 方法 会 倾向 于 选择 拥有 较 多 可 能 属性 值 的 属性 。 为 了 
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弥补 这 一 缺陷 ， 一 个 称 为 增益 率 (gain ratio) 的 修正 度量 方法 被 广泛 采用 。 增 益 率 的 获得 
考虑 了 属性 分 裂 数据 集 后 所 产生 的 子 结 点 的 数量 和 规模 ， 而 忽略 任何 有 关 类 别 的 信息 。 在 图 
4-5 的 情形 中 ， 每 个 分 支 只 包含 1 个 实例 ， 所 以 分 裂 后 的 信息 值 为 : 

info([1,1,…,1]) =-1/14 x logl/14 x 14 
因为 同样 的 分 数 1/14 出 现 了 14 次 ， 所 以 结果 为 log14 或 3.807 位 ， 这 是 一 个 非常 高 的 信 
息 值 。 因 为 分 裂 后 所 产生 的 信息 值 是 指 要 确定 各 个 实例 应 该 被 分 配 到 哪个 分 支 上 所 需要 的 
位 数 ， 分 支 越 多 ， 这 个 信息 值 越 大 。 增 益 率 的 计算 方法 是 将 原来 的 信息 增益 ， 在 这 个 例子 
中 是 0. 940 ， 除 以 这 个 属性 的 信息 值 3. 807, ， 得 到 ID code 属性 的 增益 率 0. 247。 

再 返回 图 4-2 天 气 数据 的 树桩 ， 属 性 outlook 将 数据 集 分 裂 成 3 个 子 集 ， 规 模 分 别 为 

5、4 和 5， 因 此 不 考虑 子 集中 所 包含 的 类 别 ， 产 生 一 个 内 在 的 信息 值 : 

info([5,4,5]) = 1. 577 
可 以 看 出 ， 越 是 高 度 分 支 的 属性 ， 内 在 的 信息 值 也 越 大 ， 正 如 在 假定 的 ID code 属性 上 得 
到 的 信息 值 。 信 息 增益 可 以 通过 将 其 除 以 内 在 的 信息 值 ， 从 而 获得 增益 率 的 方法 来 进行 
修正 。 

表 4-7 总 结 了 对 图 4-2 中 树桩 的 计算 结果 。 属 性 Outlook 的 结果 依然 排 在 首位 ， 而 属性 
humidity 以 一 个 更 为 接近 的 值 排 在 第 二 位 ， 因 为 它 将 数据 集 分 裂 成 2 个 子 集 而 不 是 3 个 。 
在 这 个 例子 中 ,假定 的 ID code 属性 的 增益 率 为 0.247 ， 仍 然 是 4 个 属性 中 的 首选 。 然 而 ， 
它 的 优势 已 经 大 大 降低 。 在 实际 的 开发 过 程 中 ， 可 以 采用 一 个 特别 的 测试 来 防止 在 这 类 无 
用 属性 上 的 分 裂 。 


表 4-7 对 图 4-2 中 树桩 的 增益 率 计算 





outlook temperature humidity windy 
info: 0.693 info; 0.911 info; 0. 788 info; 0. 892 
gain; gain; gain; gain: 
0. 940 ~ 0. 693 0.247 940 ~0.911 0. 029 0. 940 ~ 0. 788 0. 152 0. 940 ~ 0. 892 0. 048 
splitinfo ; splitinfo : splitinfo ; splitinfo ; 
info([5, 4, 5]) 1.577  info([4, 6, 4]) 1. 362 info([7, 7]) 1. 000 info([8, 6]) 0. 985 
gainratio : gainratio; gain ratio: Gainratio: 
0. 247/1. 577 0.156 0.029/1. 557 0. 019 0. 152/1 0. 152 0. 048/0. 985 0. 049 


不 幸 的 是 ， 在 某 些 情况 下 增益 率 修正 法 补偿 过 度 会 造成 倾向 于 选择 某 个 属性 的 原因 ， 
仅仅 是 因为 这 个 属性 的 内 在 信息 值 比 其 他 属性 小 很 多 。 一 个 标准 的 弥补 方法 是 选择 能 够 得 
到 最 大 增益 率 的 属性 ， 并 且 那 个 属性 的 信息 增益 要 大 于 等 于 所 有 属性 的 信息 增益 的 平 
均值 。 


4. 3.3 讨论 


用 分 治 法 解决 决策 树 归 纳 问 题 ， 有 时 称 为 自 顶 向 下 的 决策 树 归纳 (top-down induction 
of decision trees) ， 由 澳大利亚 悉尼 大 学 的 J. Ross Quinlan 开发 ， 并 经 过 了 多 年 的 改进 。 尽 
管 其 他 机 器 学 习 的 研究 人 员 也 研究 了 相似 的 方法 ,但 是 Quinlan 的 研究 成 果 总 是 处 于 决策 
树 归纳 技术 的 最 前 沿 。 前 面 所 描述 的 使 用 信息 增益 标准 ， 从 本 质 上 看 与 称 为 ID3 的 方法 是 
一 致 的 。 使 用 增益 率 是 多 年 来 用 于 改进 ID3 的 方法 之 一 。Quinlan 认为 它 是 一 个 广泛 适用 
于 不 同情 况 的 稳定 方案 。 尽 管 它 是 一 个 健壮 且 实 用 的 方案 ， 但 是 它 牺牲 了 一 些 信息 增益 标 
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准 的 部 分 清晰 、 优 雅 的 理论 动机 。 

在 称 为 C4. 5 的 决策 树 归纳 的 一 个 实用 且 有 影响 力 的 系统 中 ,积累 了 一 系列 改进 ID3 
的 方法 。 这 些 改进 措施 包括 处 理 数 值 属 性 、 缺 失 值 、 噪 声 数据 以 及 由 树 产生 规则 的 方法 ， 
有 关内 容 将 在 6. 1 节 中 描述 。 


4.4 ”覆盖 算法 : 建立 规则 


如 上 所 述 ， 决 策 树 算 法 是 基于 分 治 法 来 解决 分 类 问题 的 。 它 们 自 上 而 下 ， 在 每 一 个 阶 
段 寻 找 一 个 能 够 将 实例 按 类 别 分 隔 的 最 佳 属 性 ， 然 后 对 分 隔 所 得 的 子 问题 进行 递归 处 理 。 
这 种 方法 产生 一 个 决策 树 ， 如 果 有 必要 可 以 将 它 转换 成 一 个 分 类 规则 集 ， 尽 管 要 从 决策 树 
中 产生 有 效 规则 ， 但 这 个 转换 过 程 并 不 简单 。 

另 一 个 方法 是 依次 取出 每 个 类 ， 寻 找 一 个 方法 使 之 覆盖 所 有 属于 这 个 类 别 的 实例 ， 同 
时 剔除 不 属于 这 个 类 别 的 实例 。 这 种 方法 称 为 覆盖 (covering) 方法 ， 因 为 在 每 一 个 阶段 
都 要 寻找 一 个 能 够 “覆盖 ”部 分 实例 的 规则 。 履 盖 法 的 自身 特性 决定 了 它 将 产生 一 个 规则 
集 而 不 是 一 个 决策 树 。 

可 以 在 2 维 的 实例 空间 上 观察 覆盖 法 ， 如 图 4-6a 所 示 。 首 先 产 生 一 个 覆盖 a 类 实例 的 
规则 。 作 为 规则 中 的 第 一 个 测试 ， 如 图 4-6a 中 间 的 图 所 示 那 样 ， 垂 直 分 割 属 性 空间 。 由 
此 给 出 一 个 起 始 规则 : 


If x > 1.2 then class = a 








AX 12 x 12 x 
a) 覆盖 实例 





b) 同样 问题 的 决策 树 
图 4-6 覆盖 算法 


然而 ， 这 个 规则 同时 覆盖 了 很 多 a 类 和 b 类 的 实例 ， 所 以 在 规则 中 增加 一 个 新 的 测试 ， 如 
图 4-6a 最 右边 的 图 所 示 ， 在 水 平方 向 进一步 对 实例 空间 进行 分 割 : 


If x > 1.2 and y > 2.6 then class = a 


这 个 规则 有 覆盖 了 除了 一 个 a 类 实例 以 外 的 其 他 所 有 a 类 的 实例 。 也 许可 以 就 此 结束 ， 但 是 
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如 果 感 觉 有 必要 覆盖 最 后 一 个 a 类 实例 ， 也 许 需要 添加 另 一 个 规则 : 


If x > 1.4 and y < 2.4 then class = a 


同样 的 过 程 可 以 产生 出 覆盖 b 类 实例 的 2 个 规则 是 : 
If x < 1.2 then class = b 
If x > 1.2 and y < 2.6 then class = b 


此 外 ， 有 一 个 a 类 实例 被 错误 地 包含 进来 。 如 果 有 必要 去 除 它 ， 就 必须 在 第 二 个 规则 
中 增加 更 多 的 测试 ， 并 且 需 要 再 添加 的 额外 规则 来 覆盖 被 新 测试 排除 在 外 的 b 类 实例 。 


4.4.1 ”规则 与 树 


对 于 同一 个 数据 ， 自 上 而 下 的 分 治 算法 ， 至 少 从 表面 上 看 ， 与 覆盖 算法 是 很 相似 的 。 
它 也 可 能 使 用 x 属性 对 数据 集 进 行 首次 分 裂 ， 也 很 可 能 在 相同 的 位 置 ，x = 1.2， 进 行 分 
裂 。 然 而 ， 履 盖 算 法 仅 考虑 覆盖 一 个 类 别 的 实例 ， 而 由 分 治 法 产生 的 分 裂 则 需要 同时 考虑 
两 个 类 别 ， 因 为 分 治 算法 是 建立 一 个 能 够 应 用 于 所 有 类 别 上 的 单一 的 概念 描述 。 第 二 次 分 
裂 或 许 也 在 同样 的 位 置 ，y =2.6， 从 而 产生 如 图 4-6b 所 示 的 决策 树 。 这 个 树 与 规则 集 完 
全 对 应 ， 在 这 个 例子 中 ， 本 质 上 和 覆盖 法 和 分 治 算法 并 没有 什么 不 同 。 

但 是 在 许多 情况 下 ， 规 则 和 树 在 表达 的 明晰 度 上 存在 差异 。 例 如 ， 当 3. 4 节 讨 论 重复 
子 树 问 题 时 ， 曾 经 提 到 规则 可 以 是 对 称 的 ， 而 树 必 须 首 先 选择 一 个 属性 进行 分 裂 ， 这 会 导 
致 树 比 一 个 等 效 的 规则 集 大 很 多 。 另 一 个 不 同 之 处 是 ， 在 多 类 的 情况 下 ， 决 策 树 分 裂 将 考 
虑 所 有 类 别 的 情况 ， 试 图 使 分 裂 的 纯度 最 大 化 ， 而 生成 规则 的 方法 一 次 只 集中 处 理 一 个 类 
别 ， 并 不 考虑 其 他 类 别 上 发 生 的 情况 。 


4.4.2 一 个 简单 的 覆盖 算法 


覆盖 算法 向 正在 构建 中 的 规则 添加 测试 ， 总 是 尽力 创建 一 个 能 获得 最 大 准确 率 的 规 
则 。 相 反 ， 分 治 算法 是 向 正在 构建 中 的 树 上 添加 测试 ， 总 是 尽力 将 不 同类 别 最 大 程度 的 分 
开 。 这 两 种 方法 都 涉及 寻找 某 个 属性 进行 分 裂 的 过 程 。 但 是 两 者 寻找 最 佳 属 性 的 标准 是 不 
同 的 。 分 治 算法 ， 如 ID3 ， 选 择 一 个 使 信息 增益 最 大 化 的 属性 ， 而 我 们 即将 讨论 的 覆盖 算 
法 则 要 选择 一 个 使 期 望 类 别 概率 达到 最 大 化 的 属 


YE EN. _ FEN 
图 4-7 展示 了 一 个 实例 空间 ， 这 个 空间 包含 了 所 目前 得 到 的 

有 的 实例 、 一 个 部 分 创建 完成 的 规则 ， 和 同样 的 规则 规则 

在 加 入 一 个 新 条 件 后 的 情况 。 这 个 新 的 条 件 限 制 了 规 EN 


则 的 覆盖 量 ; 指导 思想 是 要 尽 可 能 多 地 包含 期 望 类 别 
的 实例 ， 同 时 尽量 不 包含 其 他 类 别 的 实例 。 假 设 新 的 
规则 将 总 共 覆 六 :个 实例 ， 其 中 存在 p 个 属于 这 个 期 望 000 
类 别 的 实例 ， 以 及 + -p 个 其 他 类 别 的 实例 ， 即 规则 所 — 7 WERDE 
产生 的 错误 。 然 后 ， 选 择 新 的 条 件 使 p/t 最 大 化 。 

举 个 例子 来 帮助 理解 。 这 次 改 为 使 用 表 1-1 的 隐形 眼镜 数据 。 依 次 生成 3 TUM, 4 
别 覆盖 3 个 类 别 (hard, soft 和 none) 中 的 每 一 个 。 首 先 寻 找 一 个 规则 


If ? then recommendation = hard 


对 于 未 知 条 件 ? 存在 9 个 选择 : 
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age = young 
age = 
age = presbyopic 


spectacle prescription 
spectacle prescription 


astigmatism = no 


pre-presbyopic 


myope 
hypermetrope 


astigmatism = yes 
tear production rate = reduced 
tear production rate = normal 


2/8 
1/8 
1/8 
3/12 
1/12 
0/12 
4/12 
0/12 
4/12 


右边 的 数值 表示 由 这 个 条 件 选 出 的 实例 集中 “正确 ”实例 的 比例 。 这 里 ， 正 确 意 味 着 
建议 使 用 hard 隐形 眼镜 。 例 如 ， 由 条 件 age = young 选 出 8 个 实例 ， 其 中 2 个 建议 使 用 hard 
隐形 眼镜 ， 所 以 第 一 个 比例 值 是 2/8 (为 了 能 很 好 地 理解 ， 最 好 看 看 表 1-1 的 隐形 眼镜 数 
据 ， 并 统计 表 中 的 记录 ) 。 

选择 最 大 的 一 个 比例 值 4/12， 从 上 面 列表 里 的 第 7 个 和 最 后 一 个 之 间 任 意 选 一 个 ， 建 


SLANI; 


If astigmatism = yes then recommendation = hard 


这 个 规则 并 不 是 非常 准确 ， 只 从 它 所 覆盖 的 12 个 实例 中 得 到 4 个 正确 的 实例 ， 见 表 4-8。 
因此 对 它 进行 进一步 修正 : 


If astigmatism = yes and ? then recommendation = hard 


表 4-8 astigmatism — yes 的 部 分 隐形 眼镜 数据 





age spectacle prescription astigmatism tear production rate recommended lenses 
young myope yes reduced none 
young myope yes normal hard 
young hypermetrope yes reduced none 
young hypermetrope yes normal hard 
pre- presbyopic myope yes reduced none 
pre- presbyopic myope yes normal hard 
pre- presbyopic hypermetrope yes reduced none 
pre- presbyopic hypermetrope yes normal none 
presbyopic myope yes reduced none 
presbyopic myope yes normal hard 
presbyopic hypermetrope yes reduced none 
presbyopic hypermetrope yes normal none 


未 知 条 件 ? 的 可 能 性 有 7 个 ,产生 7 个 选择 : 


age = young 


age pre-presbyopic 

age presbyopic 

spectacle prescription = myope 
spectacle prescription - hypermetrope 
tear production rate = reduced 


tear production rate - normal 


2/4 
1/4 
1/4 
3/6 
1/6 
0/6 
4/6 


(再 次 统计 表 4-8 中 的 记录 。) 显然 ， 最 后 一 个 胜出 ，6 个 实例 中 有 4 个 正确 ， 相 应 的 规 


则 是 : 


If astigmatism = yes and tear production rate - normal 
then recommendation = hard 


可 以 就 此 停止 了 吗 ? 也 许可 以 。 但 是 现在 要 找 出 准确 的 规则 ， 而 不 管 它们 有 多 么 复 
杂 。 表 4-9 列 出 了 目前 为 止 规则 所 能 覆盖 的 实例 。 那 么 下 一 个 可 能 的 条 件 是 : 
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age = young 2/2 
age = pre-presbyopic 1/2 
age = presbyopic 1/2 
spectacle prescription - myope 3/3 
spectacle prescription - hypermetrope 1/3 


需要 在 第 1 个 和 第 4 个 之 间 选 择 一 个 。 到 目前 为 止 ， 都 是 将 分 数 当做 数值 来 处 理 ， 尽 管 这 
两 个 分 数值 相等 〈 都 为 1) ， 但 是 它们 有 不 同 的 覆盖 量 : 一 个 选择 条 件 仅 覆 盖 2 个 正确 的 
实例 ， 而 另 一 个 覆盖 了 3 个 。 在 同等 条 件 下 ， 总 是 选择 拥有 更 大 覆盖 量 的 那个 规则 ， 所 以 





最 终 的 规则 为 : 
If astigmatism = yes and tear production rate = normal 
and spectacle prescription = myope then recommendation = hard 
XX 4-9 astigatism — yes 和 tear production rate = normal 的 部 分 隐形 眼镜 数据 
age spectacle prescription astigmatism tear production rate recommended lenses 
young myope yes normal hard 
young hypermetrope yes normal hard 
pre- presbyopic myope yes normal hard 
pre- presbyopic hypermetrope yes normal none 
presbyopic myope yes normal hard 
presbyopic hypermetrope yes normal none 


这 确实 是 在 隐形 眼镜 问题 上 产生 的 规则 之 一 。 但 是 它 仅 包 含 4 个 建议 使 用 hard 隐形 眼 
镜 情 况 中 的 3 个 。 因 此 ， 从 实例 集中 删除 这 3 个 实例 ， 并 且 重 新 开始 寻找 另 一 种 形式 的 
规则 : 

If ? then recommendation - hard 

按照 同样 的 程序 ， 将 最 终 发 现 age = young 是 作为 第 一 个 条 件 的 最 佳 选 择 。 这 个 条 件 的 
覆盖 量 是 7， 因 为 有 3 个 实例 已 经 从 原 有 的 实例 集中 被 删除 了 ， 总 共 还 剩 下 21 个 实例 。 第 
2 个 条 件 的 最 佳 选 择 是 astigmatism = yes， 选 择 的 是 1/3 (实际 上 ， 还 存在 一 个 相同 的 比例 
值 ) ; tear production rate = normal 是 第 3 个 最 佳 选择 ， 选 择 的 是 1/1。 


If age = young and astigmatism = yes 
and tear production rate = normal 
then recommendation = hard 


这 个 规则 实际 上 覆盖 了 原始 数据 集中 的 3 个 实例 ， 其 中 的 2 个 已 经 被 前 面 建立 的 规则 覆盖 
了 一 一 但 这 没有 关系 ， 因 为 这 两 个 规则 给 出 的 建议 是 一 样 的 。 

既然 所 有 的 hard 隐形 眼镜 的 实例 都 已 经 覆盖 了 ， 下 一 步 用 相同 的 步 又 生成 soft 隐形 眼 
镜 的 规则 。 最 后 生成 none 类 别 的 规则 ， 除 非 所 寻找 的 规则 集 是 带 有 缺 省 规则 的 ， 这 时 就 
不 需要 给 最 后 的 类 别 寻 找 显 式 的 规则 了 。 

以 上 的 描述 是 用 PRISM 法 创建 规则 。 它 只 建立 正确 或 者 “完美 ”的 规则 。 它 利用 准 
确 率 公式 p/t 来 衡量 规则 的 成 功率 。 任 何 准确 率 低 于 100% 的 规则 都 是 “不 正确 ”， 因 为 低 
于 100% 准确 率 的 规则 意味 着 将 实例 分 配 到 并 不 是 它 所 属 的 类 别 上 。PRISM 不 断 向 每 一 个 
规则 增加 条 件 ， 直 到 规则 达到 完美 : 规则 的 准确 率 是 100% 。 图 4-8 给 出 了 这 个 算法 的 概 
要 。 最 外 面 的 循环 在 各 个 类 上 重复 ， 依 次 为 每 个 类 别 产 生 规则 。 注 意 在 每 次 循环 开始 前 ， 
需要 将 样本 集 重 新 初始 化 到 完整 的 数据 集 状态 。 然 后 为 那个 类 别 建 立 规则 ， 并 从 数据 集中 
删除 实例 ， 直 到 没有 这 个 类 别 的 实例 存在 为 止 。 每 当 开始 创建 规则 时 ， 要 从 一 个 空 的 规则 
开始 〈 空 规则 覆盖 了 所 有 的 样本 ) ， 接 着 不 断 加 入 测试 来 限制 规则 ， 直 到 规则 仅 覆 盖 所 期 
望 的 类 别 为 止 。 在 每 一 个 阶段 ， 选 择 最 有 希望 的 测试 ， 就 是 使 规则 的 准确 率 达 到 最 大 化 的 
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一 个 测试 。 最 后 ， 选 择 拥有 最 大 覆盖 量 的 测试 来 打破 平局 。 


对 于 每 个 类 别 C 
将 E 初 始 化 为 实例 集 
while E 中 包含 类 别 为 C 的 实例 
创建 一 个 左 侧 为 空 的 规则 R 来 预测 类 别 C 
直到 R 是 完美 的 规则 (或 者 没有 更 多 的 属性 可 用 ) 
对 于 R 中 每 一 个 没有 用 过 的 属性 A 以 及 每 一 个 属性 值 v 
考虑 将 条 件 A=v 加 入 R 的 左 侧 
选择 使 准确 率 p/t 达 到 最 大 值 的 A 和 v 
(通过 选择 最 大 的 p 来 打破 平局 的 情况 ) 
将 A=v 加 入 R 
将 规则 R 覆 盖 的 实例 从 E 中 移 除 











4-8 一 个 基本 规则 学 习 器 的 伪 代 码 


4.4.3 规则 与 决策 列表 


考虑 为 某 个 特定 的 类 别 产 生 的 规则 ， 也 就 是 将 图 4-8 所 示 算 法 中 的 最 外 层 循环 去 掉 。 
从 规则 产生 的 过 程 似乎 可 以 很 清楚 地 看 到 ， 这 些 规 则 打算 按照 先后 次 序 进 行 解 释 ， 就 像 是 
一 个 决策 列表 ， 依 次 测试 规则 直到 找到 一 个 适用 的 规则 ， 然 后 使 用 它 。 这 是 因为 只 要 新 的 
规则 建立 完成 ， 由 新 规则 所 覆盖 的 实例 将 从 实例 集中 删除 LE 4-8 倒数 第 3 行 代码 ) : 
因此 后 来 生成 的 规则 是 为 那些 没有 被 这 个 规则 所 覆盖 的 实例 设计 的 。 然 而 ， 尽 管 表面 看 来 
规则 应 该 依次 被 检验 ， 但 这 并 不 是 必需 的 。 考 虑 到 后 来 为 这 个 类 别 建 立 的 规则 都 预测 出 同 
样 的 类 别 。 这 意味 着 它们 以 什么 样 的 顺序 执行 是 没有 关系 的 : 如 果 能 够 找到 一 个 覆盖 这 个 
实例 的 规则 ， 就 可 以 预测 出 这 个 实例 的 类 ; 或 者 找 不 到 这 样 的 一 个 规则 ， 也 就 不 可 能 预测 
出 实例 的 类 。 

现在 回 到 完整 的 算法 上 。 依 次 考虑 每 一 个 类 别 ， 并 且 产 生 能 够 将 属于 这 个 类 别 的 实例 
从 其 他 类 别 的 实例 中 识别 出 来 的 规则 。 为 某 个 类 别 所 建 的 规则 和 为 其 他 类 别 所 建 的 规则 之 
间 没 有 隐 含 的 顺序 关系 。 因 此 ， 产 生 的 规则 能 够 以 任意 顺序 执行 。 

正如 3.4 节 所 讨论 的 ， 独 立 于 任意 顺序 似乎 是 各 自 独立 的 “知识 ” 金 块 的 行为 方式 ， 
使 规则 更 具有 模块 性 ， 但 同时 也 存在 缺点 ， 即 当 所 采用 的 规则 发 生 冲 突 时 ， 便 不 清楚 应 该 
如 何 处 理 。 用 这 种 方法 产生 的 规则 ， 会 使 一 个 测试 样本 得 到 多 个 分 类 ， 即 它 能 够 适用 于 不 
同类 别 上 的 规则 。 而 其 他 的 测试 样本 也 可 能 不 会 得 到 任何 分 类 。 处 理 这 种 情况 的 一 个 简单 
的 策略 是 在 模糊 事件 上 强制 执行 一 个 决策 ， 从 所 预测 出 的 类 别 中 选择 〈 与 类 别 对 应 的 ) Jil 
练 实例 数量 最 多 的 那个 类 别 ， 或 者 如 果 没 有 预测 出 的 类 别 ， 那 么 选择 在 总 体 上 拥有 最 多 训 
练 实例 的 类 别 。 这 种 问题 不 会 出 现在 决策 列表 上 ， 因 为 决策 列表 需要 按 顺 序 解释 ， 并 且 一 
且 一 个 规则 适用 就 立刻 停止 解释 过 程 : 最 后 的 一 个 缺 省 的 附加 规则 能 够 保证 任何 测试 实例 
都 会 有 一 个 分 类 。 采 用 一 个 稍微 不 同 的 方法 ， 也 许 能 为 多 类 问题 产生 一 个 好 的 决策 列表 。 
6. 2 节 将 涉及 相关 内 容 。 

诸如 PRISM 这 样 的 算法 可 以 描述 为 变 治 法 (separate- and- conquer) : 寻找 一 条 能 够 覆 
盖 许 多 同类 实例 的 规则 (去 除 不 属于 此 类 的 实例 ) ， 将 这 些 已 经 被 覆盖 的 实例 从 实例 集中 
移 除 ， 因 为 这 些 实例 已 经 被 规则 考虑 到 了 ， 然 后 继续 在 剩 下 的 实例 上 执行 这 个 过 程 。 这 种 
方法 和 与 决策 树 的 分 治 法 形成 对 照 。 移 除 (实例 ) 的 步骤 大 大 提高 了 算法 的 效率 ， 因 为 实 
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例 集 的 规模 在 操作 过 程 中 不 断 地 缩减 。 
4.5 挖掘 关联 规则 


关联 规则 与 分 类 规则 相 类 似 ， 可 以 采用 同样 的 方法 找 出 关联 规则 ， 方 法 是 对 每 个 可 能 出 
现在 规则 右边 的 表达 式 执行 一 个 分 治 的 规则 归纳 过 程 。 不 但 任何 属性 都 可 以 伴随 着 任何 可 能 
的 属性 值 出 现 右边 ， 而 且 一 个 单独 的 关联 规则 经 常 能 够 预测 出 不 止 一 个 属性 的 值 。 要 找 出 这 
些 规则 ， 必 须 对 右边 的 每 一 种 可 能 的 属性 组 合 ， 用 每 种 可 能 的 属性 值 的 组 合 执行 一 次 规则 归 
纳 过 程 。 从 中 将 产生 出 数量 庞大 的 关联 规则 ， 因 此 必须 根据 它们 的 覆盖 量 (应 用 规则 预测 正 
确 的 实例 数量 ) 和 准确 率 (预测 正确 的 实例 数量 占 规 则 所 涉及 的 所 有 实例 数量 的 比例 ) 对 其 
进行 剪 枝 。 但 是 这 种 方法 非常 不 可 行 (注意 ， 如 3.4 节 所 述 ， 覆 盖 量 (coverage) 经 常 称 为 
支持 度 (support), 2444 (accuracy) 经 常 称 为 置信 度 (confidence) ) 。 

另外 ， 我 们 仅 对 拥有 高 覆盖 量 的 关联 规则 感 兴趣 。 暂 时 忽略 一 个 规则 左 、 右 两 边 的 不 
同 ， 只 寻找 能 够 达到 预定 最 小 覆盖 量 的 属性 - 值 配对 的 组 合 。 它 们 〈 这 些 组 合 ) 称 为 项 集 
(item set); 一 个 属性 — 值 配 对 就 是 一 个 项 〈item) 。 这 个 术语 出 自 购 物 篮 分 析 ， 项 是 购物 
车 里 的 商品 ， 超 市 经 理 需要 寻找 购物 车 里 物品 之 间 的 关联 。 


4.5.1 项 集 


表 4-10 的 第 1 列 列 出 了 表 1-2 天 气 数据 的 单个 的 项 ， 并 在 右边 给 出 这 个 项 在 数据 集 上 出 
现 的 次 数 。 它 们 是 1 项 集 。 下 一 步 建 立 2 项 集 ， 方 法 是 将 单个 的 项 进行 配对 。 当 然 ， 没 有 理 
由 建立 一 个 包含 两 个 相同 属性 ， 但 是 不 同属 性 值 的 2 项 集 (如 outlook = sunny fil outlook = o- 
vercast) ， 因 为 它 不 可 能 出 现在 任何 一 个 真正 的 实例 上 。 

假设 要 寻找 最 小 覆盖 量 为 2 的 关联 规则 ， 就 要 去 除 那些 覆盖 实例 的 个 数 小 于 2 的 项 
集 。 因 此 将 剩 下 47 个 2 项 集 ， 表 4-10 的 第 2 列 显示 了 其 中 的 部 分 2 项 集 以 及 2 项 集 在 数 
据 集中 出 现 的 次 数 。 接 下 来 要 建立 3 项 集 ， 将 有 39 个 3 项 集 的 覆盖 量 为 2 或 大 于 2。 在 这 
个 数据 集 上 ， 存 在 6 个 4 项 集 ， 没 有 5 项 集 ， 一 个 覆盖 量 是 2 或 大 于 2 的 5 项 集 只 可 能 与 
一 个 重复 的 实例 相对 应 。 例 如 ， 表 中 的 前 两 行 显示 outlook = sunny 有 5 天 ， 其 中 tempera- 
ture =hot 有 2 天 。 实 际 上 ， 这 两 天 又 都 是 humidity = high 和 play = no, 


表 4-10 覆盖 量 等 于 2 或 大 于 2 的 天 气 数据 的 项 集 





1 项 集 2 项 集 3 项 集 4 项 集 
1 outlook = sunny 5 outlook = sunny 2 outlook = sunny 2 outlook = sunny 2 
temperature = mild temperature = hot temperature = hot 
humidity = high humidity = high 
play = no 
2 outlook = overcast 4 outlook = sunny outlook = sunny 2 outlook = sunny 
temperature — hot temperature = hot humidity = high 
play = no windy - false 
play = no 
3 outlook = rainy 5 outlook = sunny outlook = sunny 2 outlook = overcast 


humidity = normal 


humidity = normal 


play = yes 


temperature = hot 
windy - false 
play = yes 
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38 


39 


40 


47 
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1 项 集 


RATER I 





( 续 ) 





temperature = cool 


temperature = mild 


temperature = hot 


humidity = normal 


humidity = high 


windy = true 


windy = false 
Play = yes 
play = no 


2 项 集 3 项 集 4 项 集 
outlook = sunny outlook = sunny outlook = rainy 
humidity = high humidity = high temperature = mild 

windy = false windy = false 
play = yes 


outlook = sunny 
windy - true 


outlook = sunny 
windy - false 


outlook = sunny 


play = yes 


outlook = sunny 
play = no 


outlook = overcast 


temperature = hot 


outlook = overcast 


humidity = normal 


outlook = overcast 
humidity = high 


outlook = overcast 
windy = true 


outlook = overcast 
windy - false 
humidity = normal 


windy = false 


humidity = normal 


play = yes 


humidity = high 
windy - true 


windy - false 
play = no 


outlook = sunny 
humidity = high 
play = no 


outlook = sunny 
windy = false 
play = no 


outlook = overcast 
temperature = hot 
windy = false 
outlook = overcast 
temperature = hot 
play = yes 

outlook = overcast 
humidity = normal 
play = yes 

outlook = overcast 
humidity = high 
play = yes 

outlook = overcast 
windy = true 

play = yes 

outlook = overcast 
windy - false 
play = yes 

outlook = rainy 


temperature = cool 
humidity = normal 


humidity = normal 
windy - false 

play = yes 
humidity = high 
windy - false 

play = no 


outlook = rainy 
humidity = normal 
windy - false 

play = yes 
temperature = cool 
humidity = normal 
windy - false 


play = yes 
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4.5.2 关联 规则 


下 面 将 讨论 如 何 有 效 地 建立 项 集 。 但 是 需要 首先 介绍 如 何 将 项 集 转换 成 规则 。 一 旦 所 
有 满足 规定 覆盖 量 的 项 集 生成 完毕 ， 紧 接着 就 要 分 别 将 项 集 转换 成 至 少 拥有 指定 最 小 准确 
率 的 规则 或 者 规则 集 。 有 些 项 集 将 会 产生 多 个 规则 ， 而 另 一 些 项 集 也 许 根本 不 产生 任何 规 
则 。 例 如 ， 一 个 覆盖 量 是 4 的 3 项 集 〈 见 表 4-10 第 38 行 ) 


humidity = normal, windy = false, play = yes 


这 个 3 项 集 将 产生 7 个 潜在 的 规则 : 


If humidity = normal and windy = false then play = yes 4/4 
If humidity = normal and play = yes then windy = false 4/6 
If windy = false and play = yes then humidity = normal 4/6 
If humidity = normal then windy = false and play = yes 4/7 
If windy = false then humidity = normal and play = yes 4/8 
If play = yes then humidity = normal and windy = false 4/9 


If - then humidity = normal and windy = false and play = yes 4/14 
列表 中 右边 的 数值 是 所 有 3 个 条 件 都 满足 时 的 实例 数量 〈 即 覆盖 量 ) 除 以 前 件 满足 时 的 实 
例 数量 。 用 分 数 形式 表示 规则 正确 时 所 对 应 的 实例 百分比 ， 也 就 是 规则 的 准确 率 。 假 设 指 
定 的 最 小 准确 率 为 100% ， 那 么 只 能 把 第 1 个 规则 纳入 最 后 的 规则 集 。 从 表 4-10 中 寻找 前 
件 表 达 式 可 以 获得 分 数 的 分 母 〈 尽 管 部 分 未 在 表 中 列 出 ) 。 上 面 的 最 后 一 条 规则 不 存在 前 
件 ， 它 的 分 母 是 数据 集中 实例 的 总 数 。 

表 4-11 是 天 气 数据 的 最 终 规则 集 ， 规 则 集 的 最 小 覆盖 量 是 2， 最 小 准确 率 是 100% , 
以 覆盖 量 排序 。 共 有 58 条 规则 ， 其 中 3 条 规则 的 覆盖 量 是 4，5 条 规则 的 覆盖 量 是 3，50 
条 的 覆盖 量 为 2。 只 有 7 条 规则 的 后 件 含 两 个 条 件 ， 没 有 一 条 规则 的 后 件 是 含有 两 个 以 上 
条 件 的 。 第 一 条 规则 是 从 上 面 讨论 的 项 集中 得 到 的 。 有 时 同一 个 项 集 里 会 产生 多 条 规则 。 
例如 ， 规则 9、10 和 11 是 从 表 4-10 第 6 行 的 4 项 集 产生 的 : 


temperature = cool, humidity = normal, windy = false, play = yes 


它 的 覆盖 量 是 2。 这 个 4 项 集 的 3 个 子 集 拥 有 的 覆盖 量 也 是 2: 


temperature = cool, windy = false 
temperature = cool, humidity = normal, windy = false 
temperature = cool, windy = false, play = yes 


因此 它们 产生 出 规则 9、10 和 11， 这 3 条 规则 都 拥有 100% 的 准确 率 (在 训练 数据 集 上 ) 。 
表 4-11 ”天 气 数 据 的 关联 规则 
关联 规则 覆盖 量 准确 率 


1 humidity = normal 4 100% 
windy = false 一 play = yes 





2 temperature = cool 4 100% 


humidity = normal 


3 outlook = overcast 一 play = yes 4 100% 

4 temperature = coól 3 100% 
play = yes=>humidity = normal 

5 outlook = rainy 3 100% 
windy = false 一 play = yes 

6 outlook = rainy 3 100% 


play = yes=>windy = false 
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( 续 ) 
关联 规则 覆盖 量 准确 率 

7 outlook = sunny 3 100% 
humidity = high 一 play = no 

8 outlook = sunny 3 100% 
play = no 一 humidity = high 

9 temperature = cool 2 100% 
windy = false=humidity = normal 
play = yes 

10 temperature = cool 2 100% 
humidity = normal 
windy = false 一 play = yes 

11 temperature = cool 2 100% 
windy = false 
play = yes» humidity = normal 

12 outlook = rainy 2 100% 


humidity = normal 
windy = false=play = yes 

13 outlook = rainy 2 100% 
humidity = normal 
play = yes=>windy = false 

14 outlook = rainy 2 10096 
temperature = mild 
windy = false 一 play = yes 

15 outlook = rainy 2 100% 
temperature = mild 
play = yes 一 windy = false 

16 temperature = mild 2 100% 
windy = false 
play = yes>outlook = rainy 

17 outlook = overcast 2 100% 
temperature = hot— windy = false 
play = yes 

18 outlook = overcast 2 100% 
windy = false=>temperature = hot 
play = yes 

19 temperature = hot 2 100% 
play = yes 一 outlook = overcast 
windy = false 

20 outlook = overcast 2 100% 
temperature = hot 
windy = false=play = yes 

21 outlook = overcast 2 100% 
temperature = hot 
play = yes>windy = false 

22 outlook = overcast 2 100% 
windy = false 
play = yes=temperature = hot 
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( 续 ) 
关联 规则 覆盖 量 准确 率 


23 temperature = hot 2 100% 
windy = false 











play = yes»outlook = overcast 


24 windy = false 2 100% 
play = no 一 outlook = sunny 
humidity = high 

25 outlook = sunny 2 100% 
humidity = high 
windy = false=play = no 

26 outlook = sunny 2 100% 
windy = false 
play = no 一 humidity = high 

27 humidity = high 2 100% 
windy = false 
play = no>outlook = sunny 

28 outlook = sunny 2 100% 
temperature = hot=> 
humidity = high 
play = no 

29 temperature = hot 2 100% 
play = no 一 outlook = sunny 
humidity = high 

30 outlook = sunny 2 100% 
temperature = hot 
humidity = high= play = no 


31 outlook = sunny 2 100% 
temperature = hot 
play = no=>humidity = high 


58 outlook = sunny 2 100% 
temperature = hot 
humidity = high 


4.5.3 有 效 地 生成 规则 


现在 来 详细 考察 一 个 使 产生 的 关联 规则 达到 指定 的 最 小 覆盖 量 和 准确 率 的 算法 。 这 个 
算法 分 为 两 个 阶段 : 首先 产生 达到 指定 最 小 覆盖 量 的 项 集 ， 然 后 从 每 一 个 项 集中 找 出 能 够 
达到 指定 最 小 准确 率 的 规则 。 

第 一 步 是 产生 所 有 能 达到 给 定 最 小 覆盖 量 的 1 项 集 (ILK 4-10 第 1 列 ) ， 然 后 使 用 1 
项 集 产生 2 项 集 (第 2 列 )、3 项 集 (第 3 列 ) 等 。 每 一 步 操 作 都 要 对 整个 数据 集 访 问 一 
遍 ， 统 计 每 种 项 集 的 数量 ， 访 问 结束 后 将 合格 的 项 集 保存 在 一 个 散 列表 (一 种 标准 的 数据 
结构 ) 中 ， 散 列表 中 的 各 个 元 素 能 够 被 迅速 找 出 。 从 1 项 集中 产生 2 项 集 的 候选 成 员 ， 然 
后 再 对 数据 集 访问 一 遍 ， 统 计 每 个 2 项 集 的 覆盖 量 ， 最 终 将 那些 小 于 最 小 覆盖 量 的 2 项 集 
成 员 从 散 列 表 中 删除 。 候 选 的 2 项 集成 员 只 是 将 1 项 集成 员 成 对 取出 ， 因 为 只 有 构成 一 个 
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2 项 集 的 两 个 1 项 集 都 达到 最 小 覆盖 量 时 ， 这 个 2 项 集 才 有 可 能 达到 最 小 覆盖 量 。 这 点 具 
有 通用 性 : 如 果 3 项 集中 的 3 个 2 项 集 都 达到 最 小 覆盖 量 ， 那 么 这 个 3 项 集 才 有 可 能 达到 
最 小 覆盖 量 。 对 4 项 集 也 是 如 此 。 

举 一 个 例子 来 解释 如 何 产生 项 集 的 成 员 。 假 设 有 5 个 3 项 集 : (ABC), (ABD), 
(ACD), (ACE) 和 (BCD)， 这 里 A 是 一 个 特征 ， 如 outlook = sunny。 那 么 将 前 两 个 
成 员 合并 ， 得 到 (ABC D) ， 是 一 个 4 项 集 的 成 员 ， 因 为 它 的 其 他 三 项 子 集 (ACD) 和 
(BCD) 的 覆盖 量 都 大 于 最 小 覆盖 量 。 如 果 3 项 集 是 按 字母 进行 排序 的 ， 就 像 这 个 例子 所 
示 的 序列 ， 那 么 仅 需 要 考虑 对 前 两 个 成 员 相同 的 3 项 集 配对 。 例 如 ， 我 们 不 考虑 (ACD) 
和 (BCD), 因为 (ABCD) 也 可 以 从 (ABC) 和 (ABD) 中 产生 ， 并 且 ， 如 果 它 们 
两 个 不 是 3 项 集 的 成 员 ， 那么 (ABCD) 就 不 可 能 成 为 4 项 集 的 成 员 。 所 以 ， 只 能 产生 
两 对 3 项 集 的 组 合 : 一 对 是 已 经 讨论 过 的 (ABC) 和 (A B D) ， 另 一 对 是 (ACD) 和 
(A CE) 。 第 二 对 产生 一 个 4 项 集 (ACDE), ， 由 于 它 的 3 项 集 没有 全 部 达到 最 小 覆盖 量 ， 
所 以 它 将 被 丢弃 。 散 列表 能 够 帮助 做 这 种 检查 : 只 要 依次 将 4 项 集中 的 各 项 移出 ， 并 检查 
剩余 的 3 项 集 是 否 真正 出 现在 散 列表 中 。 在 这 个 例子 中 ， 只 存在 一 个 4 项 集 候选 成 员 (A 
B C D)。 这 个 4 项 集 是 否 真正 拥有 最 小 覆盖 量 ， 只 能 通过 对 数据 集中 的 实例 进行 检查 才能 
确认 。 

第 二 个 处 理 阶段 是 取出 每 一 个 项 集 ， 从 中 产生 规则 ， 并 检查 产生 的 规则 是 否 拥 有 指定 
的 最 小 准确 率 。 如 果 规 则 的 右边 只 有 一 个 测试 ， 则 任务 将 变 得 简单 ， 只 要 依次 将 每 个 条 件 
作为 规则 的 后 件 来 考虑 ， 从 项 集中 删除 它 ， 用 完整 项 集 的 覆盖 量 除 以 结果 子 集 的 覆盖 量 
(从 散 列表 中 获得 ) 得 到 对 应 于 规则 的 准确 率 。 我 们 同样 对 后 件 中 包含 多 个 测试 的 关联 规 
则 感 兴趣 ， 将 项 集 的 每 个 子 集 放 在 右边 ， 而 将 剩余 的 项 作为 前 件 放 在 左边 ， 似 乎 必须 对 这 
些 结果 进行 评估 。 

除非 项 集 的 规模 较 小 ， 否 则 这 种 穷 举 法 将 使 计算 开销 过 大 ， 因 为 可 能 子 集 的 数量 会 随 
着 项 集 的 规模 成 指数 级 增长 6。 然而， 还 有 一 种 更 好 的 方法 。 观 察 3. 4 节 论述 关联 规则 时 的 
一 条 规则 : 


If windy = false and play = no 
then outlook = sunny and humidity = high 


如 果 这 个 双 后 件 (double - consequent). 规则 满足 给 定 的 最 小 覆盖 量 和 准确 率 ， 那么 从 同样 
的 项 集中 产生 的 两 个 单 后 件 (single - consequent) 的 规则 也 一 定 满足 最 小 覆盖 量 和 准 
确 率 : 

IE humidity = high and windy = false and play = no 
then outlook = sunny 
outlook = sunny and windy = false and play = no 
then humidity = high 

反 过 来 ， 如 果 其 中 某 个 单 后 件 的 规则 不 能 满足 最 小 覆盖 量 和 准确 率 ， 那 么 就 没有 必要 
考虑 双 后 件 规则 。 这 给 出 了 一 个 从 单 后 件 规则 建立 双 后 件 的 候选 规则 的 方法 ， 此 方法 同样 
也 适用 于 从 双 后 件 规则 中 建立 三 后 件 候 选 规则 ， 依 此 类 推 。 当 然 ， 必 须 由 散 列 表 检 查 每 一 
个 候选 规则 ， 观 察 它们 的 准确 率 是 否 真 正大 于 指定 的 最 小 准确 率 。 通 常 由 这 种 方法 检查 的 
规则 数 要 远 远 小 于 穷 举 法 。 有 趣 的 是 ， 从 含 n 个 后 件 的 规则 中 产生 出 含 (n+1) 个 后 件 的 
候选 规则 的 方法 与 前 面 讲述 的 从 项 集中 产生 (n +1) 项 集 的 候选 项 集 是 完全 一 样 的 
方法 。 


hh 


I 
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4.5.4 讨论 


通常 需要 从 大 型 数据 集中 寻找 关联 规则 ， 所 以 高 效率 的 算法 具有 很 高 的 应 用 价值 。 以 
上 描述 的 算法 对 于 每 种 不 同 规模 的 项 集 都 要 在 数据 集 上 访问 一 遍 。 有 时 候 ， 由 于 数据 集 太 
大 而 不 能 全 部 读 和 信 主 存 ， 必 须 存储 在 硬盘 上 ， 因 此 值得 考虑 在 一 次 访问 操作 中 同时 检查 两 
个 相 邻 规模 的 项 集 ， 以 减少 访问 整个 数据 集 的 次 数 。 例 如 ， 一 旦 2 项 集 产 生 ， 在 用 实例 集 
统计 集合 中 真正 存在 的 2 项 集 数 量 之 前 ， 可 以 先 从 2 项 集中 生成 所 有 的 3 项 集 。 尽 管 这 种 
方法 考虑 的 3 项 集 的 数量 大 于 真正 的 3 项 集 数 量 , 但 是 访问 整个 数据 集 的 次 数 将 减少 。 

实际 上 ， 建 立 关联 规则 所 需 的 计算 量 取决 于 指定 的 最 小 覆盖 量 。 准 确 率 的 影响 力 较 
小 ， 因 为 它 并 不 会 影响 访问 整个 数据 集 的 次 数 。 在 很 多 情况 下 ， 我 们 需要 在 满足 指定 的 最 
小 准确 率 的 条 件 下 ， 获 得 一 定数 量 的 (比如 说 50 个 ) 覆盖 量 最 大 的 规则 。 一 种 方法 是 指 
定 一 个 较 高 的 覆盖 量 ， 然 后 逐渐 降低 ， 对 于 每 一 个 覆盖 量 ， 重 复 执行 整个 寻找 规则 的 算 
法 ， 直 到 达到 所 要 求 的 规则 数量 为 止 。 

本 书 采用 的 表格 输入 格式 ， 特 别 是 基于 这 种 格式 的 标准 ARFF 文件 ， 在 处 理 很 多 关联 
规则 问题 时 效率 很 低 。 关 联 规则 通常 使 用 在 属性 具有 二 元 (binary) 特性 时 ， 也 就 是 存在 
或 不 存在 ， 并 且 一 个 给 定 实例 的 大 部 分 属性 值 不 存在 时 。 这 是 在 2. 4 节 讲 述 的 一 种 稀 朴 数 
据 的 表示 形式 ， 相 同 的 算法 可 以 用 于 寻找 关联 规则 。 


4.6 线性 模型 


我 们 所 讨论 过 的 决策 树 和 规则 在 名 目 属性 上 运作 得 非常 自然 ， 也 可 以 扩展 到 数值 属性 
上 。 把 数值 测试 直接 运用 到 决策 树 或 规则 归纳 方法 上 ， 或 者 将 数值 属性 事先 离散 化 成 名 目 
属性 的 形式 。 第 6 章 和 第 7 章 将 分 别 介绍 如 何 做 。 然 而 ， 有 些 方法 可 以 很 自然 地 运用 于 数 
值 属 性 。 首 先 看 几 个 简单 的 方案 ， 这 些 方案 是 更 加 复杂 的 机 器 学 习 方法 的 基础 ， 那 些 复杂 
的 学 习 方 法 将 在 以 后 讨论 。 


4.6.1 数值 预测 : 线性 回归 


当 结论 或 者 类 是 数值 ， 并 且 所 有 的 属性 值 都 是 数值 时 ， 我 们 很 自然 会 想到 线性 回归 。 
线性 回归 是 统计 学 的 一 种 常用 方法 。 它 的 主要 思想 是 利用 预定 的 权 值 将 属性 进行 线性 组 合 
来 表示 类 别 : 

X = Wy t Wwa, t wa 十 … + Wa, 
这 里 x MA, a, a,, «5, a, 是 属性 值 ，w ，w ，…，w; 是 权 值 。 
Sj 

权 值 是 从 训练 数据 中 计算 出 来 的 。 这 里 的 符号 有 点 儿 复杂 ， 因 为 需要 一 种 能 表达 
每 个 训练 实例 的 属性 值 的 方法 。 第 一 个 实例 将 有 一 个 类 a, AUPE a, ai, ，…， 
ao 0) ， 上 标 表示 是 第 一 个 实例 。 此 外 ， 为 了 标注 的 方便 ， 再 假设 一 个 额外 属性 co， 它 


的 值 总 是 为 1。 
对 第 一 个 实例 的 类 的 预测 值 可 以 写成 如 下 形式 : 





a) a) a) 
Woao +W,a; + W5à; 








k 
to ema? = Y wa" 
j=0 
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这 是 第 一 个 实例 类 值 的 预测 值 ， 而 不 是 真实 值 。 我 们 感 兴趣 的 是 预测 值 和 真实 值 
的 差 。 线 性 回归 法 选择 总 共 k+1 个 系数 w 使 所 有 训练 实例 上 的 预测 值 和 真实 值 的 差 的 
平方 和 达到 最 小 。 假 设 有 个 训练 实例 ， 第 i 个 实例 的 上 标 是 (i) 。 那 么 预测 值 和 真实 
值 的 差 的 平方 和 为 : 


括号 里 的 表达 式 是 第 i 个 实例 的 真实 类 值 和 它 的 预测 类 值 之 差 。 我 们 要 通过 选择 适当 
的 系数 使 这 个 平方 和 最 小 。 

乍 一 看 ， 这 个 公式 有 点 复杂 。 但 是 ， 如 果 你 有 相关 的 数学 基础 ， 最 小 化 技术 便 是 
直截了当 的 。 如 果 给 予 的 实例 数量 足够 ， 简 单 地 说 ， 就 是 样本 的 数量 多 于 属性 的 数量 ， 
那么 选择 适合 的 权 值 使 差 值 的 平方 和 达到 最 小 并 不 难 。 尽 管 这 个 过 程 确实 包含 一 个 矩 
阵 求 逆 的 操作 ， 但 是 有 关 的 软件 包 已 经 开发 出 来 ， 可 以 直接 拿 来 使 用 。 


一 旦 完成 了 数学 计算 ,将 得 到 一 个 基于 训练 数据 的 数值 型 的 权 值 集合 ， 可 以 用 来 预测 
新 实例 的 类 值 。 前 面 已 经 看 过 这 样 的 例子 ， 当 查看 CPU 性 能 数据 时 ， 图 3-4a 给 出 了 实际 
的 数值 型 的 权 值 。 这 个 公式 可 用 来 对 新 的 测试 实例 进行 CPU 性 能 预测 。 

线性 回归 是 一 个 出 色 的 、 简 单 的 适用 于 数值 预测 的 方法 ， 在 统计 应 用 领域 广泛 使 用 了 
数 十 年 。 当 然 ， 线 性 模型 也 存在 缺陷 。 如 果 数 据 呈 现 出 非 线 性 关系 ， 线 性 回归 将 会 找到 一 
条 最 适合 的 直线 ,“ 最 适合 ”是 指 最 小 均 方差 。 这 条 线 也 许 并 不 十 分 适合 。 然 而 ， 线 性 模 
型 可 以 作为 其 他 更 为 复杂 的 学 习 方法 的 基础 。 











4.6.2 线性 分 类 : Logistic 回归 


线性 回归 法 可 以 方便 地 应 用 于 含有 数值 属性 的 分 类 问题 。 事 实 上 ,任何 回归 技术 ,无 
论 是 线性 的 还 是 非 线 性 的 ， 都 可 以 用 来 分 类 。 技 巧 是 对 每 一 个 类 执行 一 个 回归 ， 使 属于 该 
类 的 训练 实例 的 输出 结果 为 1， 而 不 属于 该 类 的 输出 结果 为 0。 结果 得 到 该 类 的 一 个 线性 
表达 式 。 然 后 ， 对 一 个 给 定 的 未 知 类 的 测试 实例 ， 计 算 每 个 线性 表达 式 的 值 并 选择 其 中 最 
大 的 。 这 种 方法 有 时 称 为 多 响应 线性 回归 (multiresponse linear regression) 。 

一 种 查看 多 响应 线性 回归 的 方法 是 将 线性 表达 式 想象 成 与 每 个 类 对 应 的 数值 型 的 隶属 
函数 (membership function) 。 对 于 属于 这 个 类 的 实例 ， 隶 属 函 数值 为 1， 对 于 其 他 类 的 实 
例 ， 函 数值 为 0。 对 于 一 个 给 出 的 新 实例 ， 计 算 新 实例 与 各 个 类 的 从 属 关 系 ， 从 中 选择 
(MERZ) 最 大 的 一 个 。 

在 实际 应 用 中 ， 多 响应 线性 回归 通常 能 产生 很 好 的 结果 。 但 是 ， 也 存在 两 个 缺点 。 第 
一 ， 隶 属 函 数 产生 的 不 是 概率 值 ， 因 为 从 属 关系 值 有 可 能 落 在 0 ~1 以 外 。 第 二 ， 最 小 二 
乘 回 归 假 设 误 差 不 但 统计 上 的 独立 ， 而 且 呈 现 出 具有 相同 标准 差 的 正 态 分 布 ， 当 多 响应 线 
性 回归 用 于 分 类 问题 时 ， 明 显 违背 了 这 个 假设 ， 因 为 这 时 观察 值 仅 呈现 0 和 1。 

一 个 与 之 相关 的 、 称 为 Logistic 回归 (Logistic regression) 的 统计 技术 不 存在 这 个 问 
al, HREN O 和 1 的 方法 会 在 超越 目标 时 ， 出 现 非法 的 概率 值 ， 而 Logistic 回归 是 在 一 
个 已 转换 的 目标 变量 上 建立 一 个 线性 模型 。 


第 4 章 HF: 基本 方法 89 








首先 假设 只 有 两 个 类 的 情况 。Logistic 回归 将 原始 目标 变量 : 
Pr[1]a,,2;,--:,2,] 
这 个 无 法 用 线性 函数 来 正确 地 近似 表达 的 变量 ， 替 换 为 : 
log[ Pr[1 | à,,a5,*--,a,]/(1 - Pr[1|a,,a,,-*-,a,]) ] 

结果 值 将 不 再 局 限于 0 ~1， 而 是 负 无 穷 大 和 正 无 穷 大 之 间 的 任何 值 。 图 4-9a 是 转换 函 
数 图 ， 常 称 为 对 数 变 换 (logit transformation) 。 

转换 后 的 变量 使 用 一 个 线性 函数 来 近似 ， 就 像 是 由 线性 回归 法 所 建立 的 函数 。 结 
果 模 型 是 : 

Pr[1 aa, ,oa] = 1/(1 + exp( - wo - w,a, — = — w,a,) ) 

这 里 权 值 为 w。 图 4-9b 展示 了 这 个 函数 在 1 维 数据 空间 上 的 一 个 例子 ， 两 个 权 值 分 别 
为 wo = -0.125 和 zw 20.5, 

和 线性 回归 一 样 ， 需 要 找 出 能 与 训练 数据 匹配 得 较 好 的 权 值 。 线 性 回归 使 用 平方 
误差 来 测量 匹配 的 良好 程度 。 在 Logistic 回归 里 ， 使 用 模型 的 对 数 似 然 (log- likeli- 
hood) 。 这 就 是 : 


> (1 - x? )log(1 - Pr[1 | af? „af? ,---af? ]) + x? log(Pr[1 | a(? „af? -a ]) 


这 里 x 20 RF 1, 

应 该 选择 能 够 使 对 数 似 然 最 大 化 的 权 值 w。 解 决 最 大 化 问题 的 方法 有 几 种 。 其 中 
一 种 简单 的 方法 是 迭代 地 解决 一 系列 加 权 最 小 二 乘 回归 问题 ， 直 到 对 数 似 然 收 敛 于 一 
个 最 大 值 ， 通 常 在 经 过 几 次 的 迭代 过 程 即 可 。 

将 Logistic 回归 推广 到 多 类 问题 ， 一 个 可 能 的 方法 是 如 前 面 多 响应 线性 回归 里 讲述 
的 ， 为 每 个 类 独立 地 形成 Logistic 回归 (模型 )。 不 幸 的 是 ， 所 得 到 的 概率 估计 值 之 和 
不 为 1。 为 了 获得 适当 的 概率 ， 有 必要 将 用 于 每 个 类 的 各 个 模型 结合 起 来 。 这 样 将 产生 
出 一 个 联合 优化 问题 ,已 经 有 一 些 解决 方案 能 有 效 地 处 理 这 个 问题 。 
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4-9 Logistic 回归 


使 用 线性 函数 处 理 分 类 问题 能 够 很 容易 地 在 实例 空间 上 进行 可 视 化 。 二 类 问题 的 Lo- 
gistic 回归 决策 边界 是 在 预测 概率 为 0.5 处 : 


Pr[1|a,,a,,°--,a,] = 1/(1 + exp(- w - wa, - -wa)) = 0.5 
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它 发 生 在 
= Wo — w,a, —: —w,a, = 0 

时 。 由 于 这 是 关于 属性 值 的 线性 等 式 ， 所 以 边界 是 一 个 在 实例 空间 上 的 线性 平面 ， 或 称 超 
平面 (hyperplane) 。 很 容易 观察 到 不 能 由 单个 超 平面 分 隔 的 实例 点 的 集合 ， 就 是 Logistic 
回归 模型 不 能 正确 区 分 的 实例 。 

多 响应 线性 回归 也 存在 同样 问题 。 每 一 个 类 获得 一 个 从 训练 数据 上 计算 的 权 值 向 量 。 
先 着 重 讨论 一 对 具体 的 类 。 假 如 类 1 的 权 值 向 量 是 : 

wi + wa, +w a, + +w a, 
类 2 的 权 值 向 量 是 上 标 为 2 的 同样 的 表达 式 。 如 果 对 于 一 个 实例 存在 : 
uj? aa aula, ouf ef 

那么 这 个 实例 将 被 分 配 到 类 1 而 不 是 类 2。 换 句 话说 ， 就 是 一 个 实例 将 被 分 配 到 类 1 的 条 
件 是 : 


) 


(2 
a; 十 … +w a, 


(w -wP ) + (w - w? ) ai toe 十 (w - w Ja, > 0 


这 是 一 个 关于 属性 值 的 线性 不 等 式 ， 所 以 每 两 类 之 间 的 边界 是 一 个 超 平面 。 
4. 6.3 使 用 感知 机 的 线性 分 类 


Logistic 回归 试图 通过 将 训练 数据 的 概率 最 大 化 的 方法 ， 产 生 正 确 的 概率 估计 。 当 然 ， 
正确 的 概率 估计 会 产生 正确 的 分 类 。 但 是 ， 如 果 模 型 的 唯一 目的 只 是 预测 类 标号 ， 那 么 没 
有 必要 进行 概率 估计 。 一 种 不 同 的 方法 是 学 习 一 个 超 平面 ， 将 属于 不 同类 的 实例 分 开 ， 假 
设 只 有 两 个 类 。 如 果 使 用 一 个 超 平 面 能 够 将 数据 完美 地 分 成 两 组 ， 那 么 就 称 该 数据 为 线性 
可 分 的 (linearly separable) 数据 。 如 果 数 据 是 线性 可 分 的 ， 那么 就 有 一 个 非常 简单 的 算法 
用 于 寻找 一 个 分 隔 超 平面 。 

这 种 算法 称 为 感知 机 学 习 规 则 (perceptron learning rule) 。 在 仔细 研究 它 之 前 ， 再 来 看 
看 用 于 表示 超 平面 的 等 式 : 

Woao + W,Q, + Wwa, 十 + w,a, =0 
XH, a, a, 5, a, 分 别 是 属性 的 值 ，wo。，w, ，…，wi 是 定义 超 平面 的 权 值 。 假 设 扩展 
每 一 个 训练 实例 a, a, +, a, 使 它 存在 一 个 额外 属性 a。 ， 该 属性 值 始终 为 1 (如 在 线性 
回归 里 一 样 )。 这 个 扩展 属性 称 为 偏差 (bias) ， 意 味 着 在 求 总 和 时 ， 不 必 包 含 一 个 额外 的 
常量 元 素 。 如 果 所 求 出 的 和 大 于 0， 将 它 预 测 成 第 一 类 ， 和 否则 为 第 二 类 。 我 们 希望 找 出 权 
值 ， 这 样 训练 数据 就 可 以 被 超 平面 正确 地 分 隔 开 。 

图 4-10a 给 出 了 为 寻找 一 个 分 隔 超 平面 的 感知 机 学 习 规则 。 这 个 算法 不 断 迭 代 直 到 找 
出 一 个 完美 的 解决 方案 ， 但 只 有 当 数 据 中 确实 存在 一 个 分 隔 超 平面 时 ， 也 就 是 当 数据 是 线 
性 可 分 时 才能 很 好 地 工作 。 每 次 循环 都 要 在 所 有 训练 实例 上 运行 。 如 果 遇 到 一 个 错 分 的 实 
例 ， 就 要 改变 超 平面 的 参数 ， 让 错 分 的 实例 更 靠近 超 平面 ,或 者 甚至 路 过 超 平 面 进入 正确 
的 一 边 。 如 果实 例 属于 第 一 类 ， 就 将 它 的 属性 值 加 入 权 值 向 量 ， 否 则 从 权 值 向 量 中 减 去 它 
的 属性 值 。 

现在 解释 为 什么 这 样 做 。 考 虑 一 个 属于 第 一 类 的 实例 a 加 进来 以 后 : 


(wg + Ay) dy + (w, * a,)a, + (w, + a,)a, + + (w, + a,)a, 


(1) 
0 
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这 意味 着 a 的 输出 增加 了 : 

Gy Xaa +a, Xa, +a, Xa,+'*+a,xa, 
这 个 数 总 是 正 数 。 所 以 超 平 面 将 向 使 实例 a 获得 正 例 分 类 的 正确 方向 移动 。 相 反 ， 如 果 一 
个 实例 属于 第 二 类 ， 而 被 错 分 ， 那 么 这 个 实例 的 输出 经 过 修改 后 将 降低 ， 同 样 是 将 超 平面 
朝 正 确 的 方向 移动 。 

这 种 修正 是 递增 的 ， 会 与 先前 的 更 新 相抵 触 。 然 而 ， 如 果 数 据 是 线性 可 分 的 ， 那 么 在 
经 过 有 限 次 的 循环 之 后 ,算法 将 收敛 。 当 然 ， 如 果 数 据 不 是 线性 可 分 的 ,算法 将 无 法 停 
止 ， 所 以 当 这 种 方法 在 实际 运用 中 ， 需 要 强制 设 定 一 个 循环 次 数 的 上 限 。 

得 到 的 超 平面 称 为 感知 机 ( perceptron) ， 它 是 神经 网 络 的 前 身 (在 6.4 节 将 介绍 神经 
网 络 ) 。 图 4-10b 是 将 感知 机 用 包含 结 点 和 加 权 边 的 图 形 来 表示 ， 形 象 地 称 它 为 一 个 “ 神 
经 ”的 “网 络 ”。 它 有 两 层 结 点 : 输入 和 输出 。 输 入 层 上 每 个 结 点 代表 一 个 属性 ， 加 上 一 
个 总 是 设置 为 1 的 额外 结 点 。 输 出 层 仅 有 一 个 结 点 。 每 一 个 在 输入 层 上 的 结 点 都 连接 到 输 
出 层 。 这 些 连 接 是 加 权 的 ， 权 值 是 由 感知 机 学 习 规则 找到 的 数值 。 


将 所 有 权 值 设 为 0 
循环 操作 ， 直 到 所 有 训练 实例 被 正确 分 类 
有 的 每 个 实例 I 


例 I 被 感知 器 错误 
如 果实 例 I 属于 第 1 个 类别 | 则 将 其 加 入 权 值 向 量 
否则 从 权 值 向 量 中 将 其 减 去 





a) 学 习 规 则 









属性 属性 ec 


ai a2 






b) 以 神经 网 络 形式 表达 
图 4-10 感知 器 


当 一 个 实例 放置 在 感知 机 上 时 ， 实 例 的 属性 值 将 “激活 ”输入 层 。 属 性 值 分 别 与 权 值 
相 乘 ， 并 且 在 输出 结 点 上 求 和 。 如 果 经 加 权 的 属性 值 之 和 大 于 0， 那么 输出 结果 为 1， 表 
示 实 例 属于 第 一 类 ; 否则 输出 结果 为 -1， 表 示 实 例 属 于 第 二 类 。 


4.6.4 使 用 Winnow 的 线性 分 类 


感知 机 并 非 是 保证 为 线性 可 分 的 数据 找到 分 隔 超 平面 的 唯一 方法 。 对 于 二 元 属性 的 数据 
集 ， 有 一 种 处 理 方法 称 为 Winnow 算法 ， 见 图 4- 11a。 两 种 算法 的 结构 非常 相似 。 和 感知 机 一 
样 ， 当 出 现 错 分 的 实例 时 ，Winnow 才 更 新 权 值 向 量 。 它 是 错误 驱动 (mistake driven) 的 。 
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当 存在 错误 分 类 实例 时 
对 于 每 个 实例 a 循环 操作 
使 用 当前 的 权 值 对 实例 a 进行 分 类 
如 果 预 测 类 别 不 正确 




















eines angie 如 果 a 属于 第 一 个 类 
a a 对 于 每 个 属性 值 a.， 且 a 为 1 时 
使 用 当前 的 权 值 对 实例 a 进行 分 类 ee 
w 
如 果 预 测 类 别 不 正确 ee mA 
如 果 a 属于 第 一 个 类 将 wi RU a 
对 于 每 个 属性 值 a,， 当 & 为 1 时 将 w RA a (如 果 HO, w, 和 w 保持 不 变 ) 
(如 果 a, HO, w, 保持 不 变 ) 否则 
否则 将 Wi FELL Qa 
对 于 每 个 属性 值 w ， 当 am 为 1 时 将 w 除 以 a Hw, 除 以 a 
CUR. a, 为 0，w 保持 不 变 ) (如 果 a, HO, w Aw, 保持 不 变 ) 
a) 不 平衡 的 Winnow 算法 b) 平衡 的 Winnow 算法 


图 4-11 Winnow 算法 


两 种 方法 的 不 同 之 处 在 于 如 何 更 新 权 值 。 感 知 机 规则 应 用 一 个 加 法 机 构 ， 通 过 加 上 
(或 者 减 去 ) 实例 的 属性 向 量 来 修改 权 值 向 量 。Winnow 采用 乘法 更 新 权 值 向 量 ， 将 权 值 乘 
以 用 户 指 定 的 参数 a (或 者 a 的 倒数 ) 来 分 别 地 修改 权 值 。 属 性 a; 的 值 为 0 或 者 1， 因 为 
处 理 的 是 二 元 数据 。 如 果 属 性 值 为 0， 权 值 不 会 改变 ， 因 为 它们 没有 参与 决策 ; 否则 ， 如 
果 属 性 帮助 做 出 了 一 个 正确 的 决策 ， 那么 乘 数 为 a， 如 果 没 有 帮助 做 出 正确 的 决策 ， 那 么 
乘 数 为 1/a。 

另 一 个 不 同 是 ，Winnow 在 线性 函数 中 的 阔 值 也 是 一 个 用 户 定义 的 参数 。 我 们 称 这 个 
阔 值 为 6， 当 且 仅 当 满足 以 下 条 件 时 ， 才 将 这 个 实例 分 配 到 类 1 上 : 

Woao + wa; + Wü, t + w,a, > 0 
FR a 需要 大 于 1。 在 开始 的 时 候 将 w 设置 成 常量 。 

以 上 描述 的 算法 不 允许 有 负 的 权 值 ， 这 取决 于 具体 的 应 用 领域 ， 这 可 能 成 为 一 种 缺 
点 。 然 而 ， 还 有 另 一 个 版 本 称 为 平衡 的 Winnow (Balanced Winnow) ,平衡 的 Winnow 允许 
使 用 负 的 权 值 。 这 个 版 本 包含 两 个 权 值 向 量 ， 每 个 类 对 应 一 个 权 值 向 量 。 如 果 一 个 实例 满 
足以 下 条 件 ， 它 将 被 分 到 类 1 中 。 图 4-11b 是 平衡 的 Winnow 算法 。 

(wg - w )ao + (wy -wi a, ++ + (w; -w,)a, > 0 

Winnow 算法 是 跟踪 数据 集 上 的 相关 属性 非常 有 效 的 方法 ， 因 此 称 为 有 效 属性 ( attrib- 
ute-efficient) 学 习 器 。 如 果 一 个 数据 集 存在 很 多 〈 二 元 ) 属性 ， 并 且 其 中 的 大 部 分 属性 是 
不 相关 的 ， 那 么 Winnow 也 许 是 一 个 好 的 候选 算法 。Winnow 和 感知 机 算法 一 样 可 以 用 于 实 
时 环境 ， 在 实时 环境 的 情况 下 ， 新 实例 连续 不 断 地 到 来 ， 而 当 有 新 实例 到 达 时 ， 这 两 个 算 
法 能 增 量 地 更 新 它们 的 假定 。 


4.7 ”基于 实例 的 学 习 


在 基于 实例 的 学 习 中 ， 训 练 样本 被 一 字 不 差 地 保存 ， 并 且 使 用 一 个 距离 函数 来 判定 训 
练 集中 的 哪个 实例 与 一 个 未 知 的 测试 实例 最 靠近 。 一 旦 找到 最 靠近 的 训练 实例 ， 那 么 最 靠 
近 实 例 所 属 的 类 就 被 预测 为 测试 实例 的 类 。 剩 下 的 唯一 问题 就 是 定义 距离 函数 ， 它 并 不 十 
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分 困难 ， 尤 其 是 当 属 性 为 数值 属性 时 。 
4.7.1 距离 函数 


尽管 存在 其 他 可 能 的 选择 ， 但 是 大 部 分 基于 实例 的 学 习 方法 使 用 欧 几 里 得 距离 函数 。 属 
PHBA a? , aj), e, aj? (是 属性 的 个 数 ) 的 实例 与 另 一 个 属性 值 为 aP, aP, ，…， 
a(? 的 实例 之 间 的 距离 定义 为 : 

Ja aP s (GP ay + (a ap) 

比较 距离 时 ， 不 必 计 算 平 方 根 ， 直 接 使 用 平方 之 和 进行 比较 。 欧 几 里 得 距离 可 以 由 曼 
哈 顿 距离 (Manhattan distance 或 街区 距离 (city-block distance) 来 替代 ， 曼 哈 顿 距离 不 是 
计算 属性 值 差 值 的 平方 ， 而 是 将 差 值 ( 取 绝 对 值 以 后 ) 相 加 。 其 他 方法 采用 大 于 2 的 指数 
形式 。 更 高 的 指数 增加 了 大 差 值 的 影响 力 而 削弱 了 小 差 值 的 影响 力 。 通 常 欧 几 里 得 距离 公 
式 是 一 个 很 好 的 折 中 方法 。 在 某 些 特殊 场合 ， 其 他 的 距离 度量 法 也 许 更 为 适合 。 关 键 是 要 
思考 真实 的 距离 以 及 二 者 之 间 以 某 个 具体 距离 分 隔 开 意味 着 什么 ? 又 璧 如， 这 个 距离 的 两 
倍 又 意味 着 什么 ? 

不 同 的 属性 经 常 使 用 不 同 的 尺度 量度 ， 如 果 直 接 使 用 欧 几 里 得 公式 ， 某 些 属性 的 结果 
可 能 被 另外 一 些 使 用 较 大 量 尺度 的 属性 完全 削弱 。 所 以 ， 通 常 需要 利用 下 面 的 公式 将 所 有 
属性 值 规范 化 为 0~1。 





v, — min vj 


这 里 , v, 是 属性 ; 的 真实 值 ， 最 大 和 最 小 属性 值 是 从 训练 集 的 所 有 实例 中 获得 的 。 

这 些 公 式 隐 含 地 假设 为 数值 属性 。 这 里 ， 两 个 值 之 间 的 差 就 是 它们 之 间 的 数值 差 ， 将 
这 个 差 值 取 平方 以 后 再 相 加 得 到 距离 函数 。 对 于 名 目 属性 ， 属 性 值 是 符号 值 而 不 是 数值 ， 
两 个 不 同 的 名 目 属性 值 之 差 常 认为 是 1， 如 果 名 目 属性 值 相同 ， 它 们 的 差 为 0。 这 里 无 需 
量度 尺寸 ， 因 为 只 使 用 1 和 0。 

一 个 通用 的 处 理 缺 失 值 的 方法 如 下 。 对 于 名 目 属性 ,假设 缺失 属性 值 与 其 他 属性 值 的 
差 达到 最 大 值 。 因 此 如 果 两 个 属性 值 中 的 一 个 或 者 两 个 都 缺失 ， 或 者 如 果 两 个 属性 值 不 
同 ， 那 么 它们 之 间 的 差 为 1; 只 有 两 个 属性 值 都 不 缺失 ， 并 且 相 同时 ， 它 们 之 间 的 差 才 为 
0。 对 于 数值 属性 ， 两 个 缺失 值 之 差 也 为 1。 但 是 ， 如 果 仅 有 一 个 属性 值 缺 失 ， 那 么 它们 的 
差 是 另 一 个 值 的 规范 化 值 ， 或 者 是 1 减 去 那个 规范 化 值 ， 取 两 者 中 较 大 的 那个 。 这 意味 着 
如 果 属 性 值 缺 失 ， 差 值 将 会 达到 可 能 的 最 大 差 值 。 


4.7.2 有效 寻找 最 近邻 


尽管 基于 实例 的 学 习 方 法 不 但 简单 而 且 很 有 效果 ， 但 是 通常 速度 很 慢 。 一 种 显而易见 
的 用 于 寻找 哪个 训练 集成 员 最 靠近 类 未 知 的 测试 实例 的 方法 是 ， 计 算 训练 集 里 的 每 一 个 训 
练 实例 到 测试 实例 的 距离 ， 并 选择 距离 最 小 的 那 一 个 。 这 个 过 程 与 训练 实例 的 数量 成 线性 
关系 ， 换 句 话 说， 就 是 一 个 单独 的 预测 所 花费 的 时 间 与 训练 实例 的 数量 成 比例 关系 。 处 理 
整个 测试 集 所 花费 的 时 间 与 训练 集 实例 数量 和 测试 集 实例 数量 的 乘积 成 正比 。 

以 树 的 形式 表示 训练 实例 集 能 更 加 有 效 地 找 出 最 近邻 实例 ， 尽 管 怎样 用 树 来 表示 并 不 
十 分 明显 。 其 中 一 种 适合 的 树 结 构 是 kD 树 (kD-tree), kD 树 是 一 个 二 又 树 ， 它 用 一 个 超 
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平面 将 输入 实例 空间 分 隔 开 ， 然 后 再 将 每 一 个 部 分 递归 地 进行 分 裂 。 在 2 维 数据 空间 上 ， 
所 有 的 分 裂 都 与 一 个 轴 平 行 或 者 垂直 。 数 据 结 构 称 为 KD 树 ， 因 为 它 将 一 系列 的 数据 点 存 
储 在 上 维 空间 ，k 是 属性 的 数量 。 

图 4-12a 展示 了 上 =2 的 小 例子 ， 图 4-12b 显示 了 4 个 训练 实例 ， 以 及 构成 树 的 超 平 
面 。 注 意 这 些 超 平面 不 是 决策 边界 ， 分 类 决策 将 由 稍 后 介绍 的 最 近邻 基础 上 做 出 。 第 一 次 
分 裂 是 水 平分 裂 (h), DRAA (7, 4) 是 树 的 根 结 点 。 左 支 将 不 再 分 裂 ， 它 包含 了 一 个 
点 〈2，2) ， 是 树 的 叶子 。 右 支 在 点 (6, 7) 处 进行 垂直 分 裂 (v)。 它 的 右 支 为 空 ， 左 支 
包含 一 个 点 (3，8)。 如 该 例 所 示 ， 每 个 区 域 只 有 一 个 点 ,或 者 没有 点 。 树 的 兄弟 分 支 ， 
如 图 4-12a 中 根 结 点 的 两 个 子 支 ， 并 不 一 定 要 发 展 到 相同 的 深度 。 训 练 集中 的 每 一 个 点 与 
树 的 一 个 结 点 相对 应 ， 最 多 一 半 的 结 点 是 叶子 结 点 。 


(7,4); h 








a) 树 b) 实例 和 划分 
图 4-12 含 4 个 训练 实例 的 KD 树 


如 何 为 一 个 数据 集 创建 一 棵 ED 树 ? 当 新 的 训练 实例 加 入 时 ，hD 树 能 够 进行 有 效 地 更 
新 吗 ? kD 树 又 是 如 何 提高 计算 最 近邻 的 速度 ? 首先 看 最 后 一 个 问题 。 

为 了 找到 一 个 给 定 目标 点 的 最 近邻 ， 需 要 从 树 的 根 结 点 开始 向 下 沿 树 找 出 目标 点 所 在 
的 区 域 。 图 4-13 是 一 个 近似 于 图 4-12b 的 实例 空间 ， 只 是 多 了 几 个 实例 并 增加 了 一 条 边 
界 。 目 标点 不 是 树 上 的 实例 中 的 一 个 ， 图 中 用 了 一 个 星 形 标 出 。 目 标点 所 在 区 域 的 叶子 结 
点 涂 成 黑色 。 正 如 该 例 所 示 ， 叶 子 结 点 不 一 定 是 目标 点 的 最 近邻 ， 但 是 这 是 寻找 最 近 点 的 
很 好 的 首次 尝试 。 值 得 注意 的 是 ， 任 何 更 近 的 近邻 点 必须 落 在 更 近 的 地 方 ， 例 如 落 在 图 4-13 
的 虚线 圆 内 。 为 了 确定 是 否 存在 一 个 更 近 的 近邻 ， 首 先 检查 叶子 结 点 的 兄弟 结 点 是 否 有 可 
能 存在 一 个 更 近 的 近邻 。 黑 色 结 点 的 兄弟 结 点 是 图 4-13 有 阴影 的 部 分 ， 但 是 虚线 圆 并 没 
有 与 之 相交 ， 所 以 兄弟 结 点 内 不 可 能 包含 更 近 的 近邻 。 然 后 回潮 到 父 结 点 ， 并 检查 父 结 点 
的 兄弟 结 点 ， 父 结 点 的 兄弟 结 点 覆盖 了 所 有 横 线 以 上 的 区 域 。 在 这 个 例子 中 ， 必 须 对 个 区 
域 做 进一步 研究 ， 因 为 这 个 区 域 与 当前 的 最 佳 圆 相交 。 首 先 找 出 它 的 子 结 点 〈 即 初始 点 的 
两 个 叔 辈 结 点 ) ， 检 查 它 们 是 否 与 圆 相 交 (左边 那个 不 相交 ， 而 右边 那个 与 圆 相 交 ) ， 并 
由 此 向 下 寻找 是 否 存在 一 个 更 近 的 点 〈 的 确 存在 ) 。 

在 典型 的 案例 中 ， 这 个 算法 比 考察 所 有 点 来 寻找 最 近邻 的 方法 快 很 多 。 寻 找 一 个 初始 
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的 近似 最 近邻 点 ， 如 图 4-13 中 的 黑色 点 ， 与 树 的 深度 密切 相关 ， 树 的 深度 为 树 的 结 点 个 
数 的 对 数 ， 即 logjn。 回 漳 并 检查 是 否 存在 最 近邻 的 工作 量 有 一 小 部 分 取决 于 树 ， 另 一 部 
分 取决 于 初始 近似 点 的 好 坏 程 度 。 但 是 对 于 一 
个 点 的 结构 良好 的 树 来 说 ， 它 的 形状 近似 于 方 
形 ， 而 不 是 瘦长 的 矩形 ， 这 部 分 工作 量 也 是 取 
决 于 结 点 个 数 的 对 数 (如 果 数 据 集中 属性 的 数 
量 不 是 太 大 ) 。 

如 何 才能 在 一 个 训练 样本 集 上 创建 一 棵 好 
树 ?关键 问题 归结 于 选择 要 分 裂 的 第 一 个 训练 
实例 以 及 分 裂 的 方向 。 一 旦 完成 这 项 工作 ， 就 
可 以 在 初始 分 裂 所 生成 的 每 个 子 结 点 上 递归 地 
应 用 相同 的 方法 来 完成 构建 树 的 过 程 。 

为 了 给 分 裂 寻找 一 个 好 的 方向 ， 需 要 分 别 
计算 数据 点 在 每 个 轴 向 上 的 方差 ， 选 择 最 大 方 
差 所 对 应 的 轴 ， 然 后 建立 一 个 与 该 轴 垂 直 的 分 
隔 超 平面 。 为 了 给 分 隔 超 平面 找到 一 个 好 位 。 图 4-13 使 用 如 树 寻找 星 形 的 最 近邻 
置 ， 需 要 找 出 位 于 轴 上 的 中 值 ， 并 选择 与 之 相对 应 的 点 。 这 将 使 分 隔 面 垂直 于 (数据) 
散布 范围 最 广 的 方向 ， 让 每 一 边 都 拥有 一 半 的 数据 点 。 这 种 方法 将 产生 一 个 平衡 的 树 。 
为 了 避免 出 现 长 条 形 区 域 ， 最 好 能 沿 不 同 的 轴 连 续 分 裂 ， 因 为 每 个 阶段 都 选择 方差 最 大 
的 轴 向 ， 因 此 很 有 可 能 满足 这 点 要 求 。 但 是 ， 如 果 数 据点 的 分 布 非常 不 均衡 ,， 采 用 选择 
中 值 的 方法 也 许 会 在 同一 个 方向 上 产生 多 次 后 续 分 隔 ， 从 而 产生 瘦长 形 的 超 和 矩形 。 一 个 
更 好 的 解决 方法 是 计算 平均 值 而 不 是 中 值 ， 并 使 用 最 接近 平均 值 的 点 。 由 此 产生 的 树 也 
不 是 完美 的 平衡 ,但 是 它 的 区 域 趋 向 于 方形 ， 因 为 这 种 方法 增加 了 在 不 同方 向 上 产生 后 
续 分 裂 的 机 会 。 

与 其 他 大 部 分 机 器 学 习 方 法 相 比 ， 基 于 实例 学 习 的 一 个 优势 是 新 的 实例 可 以 在 任何 时 
候 加 入 到 训练 集 里 。 在 使 用 加 树 时 ， 为 了 保持 这 个 优势 ， 需 要 用 新 的 数据 点 不 断 地 更 新 
这 棵 树 。 判 断 哪个 叶子 结 点 包含 了 新 的 数据 点 ， 并 且 找 出 叶子 结 点 的 超 和 矩形。 如 果 超 和 矩形 
为 空 ， 就 将 新 数据 点 放置 在 那里 ; 否则， 分 裂 超 和 矩形 ,分裂 在 最 长 的 边 上 进行 ， 以 保持 方 
形 。 这 种 简单 的 探索 式 方法 并 不 能 保证 在 加 入 一 系列 点 后 ， 树 依然 会 维持 平衡 ， 也 不 能 保 
证 为 搜索 最 近邻 塑造 良好 的 超 矩 形 。 有 时 从 头 开始 重建 树 不 失 为 一 个 良策 。 例 如 ， 当 树 的 
深度 达到 最 合适 的 深度 值 的 两 倍 时 。 

我 们 已 经 看 到 ，j1D 树 是 可 用 于 有 效 寻找 最 近邻 的 良好 数据 结构 ， 但 是 ， 并 不 完美 。 
当 处 理 不 均匀 分 布 的 数据 集 时 便 呈 现 出 一 个 基本 冲突 : 既 要 求 权 有 完美 的 平衡 结构 ， 又 要 
求 区 域 近似 方形 。 更 重要 的 是 ， 和 矩形， 甚至 正方 形 ， 都 不 是 最 好 的 使 用 形状 ， 原 因 是 它们 
都 有 角 。 如 果 黑 色 的 实例 离 目 标点 再 远 一 点 ， 图 4-13 中 的 虚线 圆 会 更 大 ， 那 么 虚线 圆 将 
有 可 能 与 左上 方 矩形 的 右 下 角 相 交 ， 因 此 也 必须 对 这 个 矩形 进行 检查 ， 尽 管 实际 上 定义 这 
个 矩形 的 训练 实例 离 这 个 角 很 远 。 矩 形 区 域 的 角 是 个 难以 处 理 的 问题 。 

解决 方案 是 什么 ?答案 是 使 用 超 球 面 ， 而 不 用 超 矩 形 。 当 然 ， 相 邻 的 球体 可 能 相互 重 
春 ， 而 矩形 却 可 以 彼此 相 邻接 ， 但 这 并 不 是 一 个 问题 ， 因 为 前 面 讲述 的 用 于 KD 树 的 最 近 
邻 算 法 并 不 需要 区 域 之 间 不 相交 。 一 个 称 为 球 树 (ball tree) 的 数据 结构 定义 了 上 维 超 球 
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面 (“ 球 " ) ， 它 覆盖 了 所 有 的 数据 点 ， 并 将 它们 安排 成 一 个 树 结构 。 

图 4-14a 展示 了 2 维 空间 上 的 16 个 实例 ， 由 重 倒 圆 组 成 的 图 案 所 覆盖 。 图 4-14b 是 由 
这 些 圆 形成 的 树 。 在 树 的 不 同 层 上 的 圆 用 不 同形 式 的 虚线 画 出 ， 更 小 的 圆 被 打上 灰色 的 阴 
影 。 树 的 每 个 结 点 代表 一 个 球 ， 采 用 同样 的 表达 习惯 将 结 点 分 别 画 成 虚线 或 者 打上 阴影 ， 
这 样 就 能 清楚 地 辨别 出 球 属于 哪 一 层 。 为 了 有 助 于 对 树 的 理解 ， 结 点 上 标明 了 数字 以 显示 
那个 球 里 数据 点 的 个 数 。 注 意 : 这 个 数字 不 一 定 和 落 在 这 个 球 所 代表 的 球形 空间 区 域 里 的 
数据 点 数量 一 致 。 在 每 一 层 上 的 区 域 有 时 会 重合 ,但 是 落 在 重合 区 域 里 的 点 只 能 被 分 配 到 
BBR PNT Eb (ER 4-14 中 看 不 出 到 底 是 哪个 ) 。 而 不 是 如 图 4-14b 所 示 存 储 数据 点 
占有 量 ， 真 实 球 树 的 结 点 上 存储 了 球 的 中 心 点 和 半径 ， 叶 子 结 点 则 记录 了 所 包含 的 数 
据点 。 
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a) 实例 和 球 b) 树 
图 4-14 16 个 训练 实例 的 球 树 


使 用 球 树 找 出 给 定 目标 点 的 最 近邻 方法 是 ， 首 先 自 上 向 下 贯穿 整 棵 树 找 出 包含 目标 点 
所 在 的 叶子 结 点 ， 并 在 这 个 球 里 找 出 与 目标 点 最 靠近 的 点 。 这 将 给 出 目标 点 距离 它 的 最 近 
邻 点 的 一 个 上 限 值 。 然 后 ， 和 加 树 一 样 ， 检 查 兄 
弟 结 点 。 如 果 目 标点 到 兄弟 结 点 中 心 的 距离 超过 
兄弟 结 点 的 半径 与 当前 的 上 限 值 之 和 ， 那 么 兄弟 
结 点 里 不 可 能 存在 一 个 更 近 的 点 ; 否则 ， 必 须 进 
一 步 检查 位 于 兄弟 结 点 以 下 的 树 。 

在 图 4-15 中 ， 目 标点 用 一 个 星 形 表 示 ， 黑 色 
点 是 当前 已 知 的 目标 点 的 最 近邻 。 灰 色 球 里 的 所 
有 内 容 将 被 排除 ， 因 为 灰色 球 的 中 心 点 离 得 太 远 ， 04 
所 以 它 不 可 能 包含 一 个 更 近 的 点 。 递 归 地 向 树 的 | 
根 结 点 进行 回溯 处 理 ， 检 查 所 有 可 能 包含 一 个 比 S, E 
当前 上 限 值 更 近 的 点 的 球 。 ss 








球 树 是 自 上 而 下 地 建立 ， 和 kD 树 一 样 ， 根 本 图 4-15 根据 目标 点 ( 星 形 ) 和 目标 点 当 
问题 是 要 找到 一 个 好 的 方法 将 包含 数据 点 集 的 球 前 最 近邻 ， 排 除 整个 球 〈 灰 色 ) 


分 裂 成 两 个 。 在 实践 中 ， 不 必 等 到 叶子 结 点 只 有 两 个 数据 点 时 才 停止 ， 可 以 采用 和 加 D 树 
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一 样 的 方法 , 一旦 结 点 上 的 数据 点 达到 预先 设置 的 最 小 数量 时 ,， 便 可 提前 停止 建树 过 程 。 
这 里 有 一 个 可 行 的 分 裂 方 法 。 从 球 中 选择 一 个 离 球 中 心 最 远 的 点 ， 然 后 选择 离 第 一 个 点 最 
远 的 第 二 个 点 。 将 球 中 所 有 的 点 分 配 到 离 这 两 个 聚 类 中 心 最 近 的 一 个 上 ， 然 后 计算 每 个 聚 
类 的 中 心 ， 以 及 聚 类 能 够 包含 它 所 有 数据 点 所 需 的 最 小 半径 。 这 种 方法 的 优点 是 分 裂 一 个 
BE n SBE A IER) AAS A EB n 呈 线 性 增加 。 其 他 更 好 的 算法 会 产生 出 更 紧凑 的 球 ， 
但 是 需要 的 计算 量 更 大 。 这 里 将 不 再 继续 讨论 用 于 创建 球 树 ， 或 者 用 于 新 的 实例 加 入 时 ， 
对 球 树 进行 增 量 地 更 新 的 复杂 算法 。 


4.7.3 讨论 


基于 实例 的 最 近邻 学 习 方 法 不 但 简单 ， 而 且 通 常 工作 得 很 好 。 在 前 面 描述 的 方法 中 ， 
每 一 个 属性 在 决策 上 具有 相同 的 影响 力 ， 就 像 朴素 贝 叶 斯 方法 一 样 。 另 一 个 问题 是 数据 库 
很 容易 受 噪 声 样本 破坏 。 一 种 解决 方案 是 采用 上 最 近邻 法 ， 找 出 固定 的 、 小 的 、 左 个 最 近 
邻 ， 如 5 个 ， 让 它们 通过 简单 的 投票 方法 (少数 服从 多 数 ) 共同 决定 测试 实例 的 类 别 CHE 
意 : 前 面 曾 使 用 左 来 代表 属性 的 个 数 ， 这 里 的 上 是 另 一 种 含义 ) 。 另 一 种 增强 数据 库 抵抗 
噪声 数据 的 方法 是 明智 地 挑选 样本 ， 然 后 再 加 入 训练 集 。 第 6 章 将 阐述 一 些 改进 的 方法 ， 
同时 也 指出 各 自 存在 的 不 足 。 

最 近邻 法 起 源 于 几 十 年 以 前 ， 统 计 学 家 在 20 世纪 50 年 代 早 期 就 分 析 了 上 大 最 近邻 法 。 
如 果 训 练 实例 的 数量 很 大 ， 直 观感 觉 需 要 使 用 不 止 一 个 最 近邻 ， 但 是 ， 如 果实 例 的 数量 非 
常 少 ,很 明显 这 种 方法 是 危险 的 。 当 和 实例 的 数量 n 都 变 成 无 穷 大 ,使 得 kh/n 一 0 时 ， 
那么 在 数据 集 上 产生 的 误差 概率 将 达到 理论 上 的 最 小 值 。 早 在 20 世纪 60 年 代 ， 最 近邻 法 
就 已 经 被 用 做 分 类 方法 ， 并 且 在 模式 识别 领域 已 经 广泛 使 用 了 近 半 个 世纪 。 

最 近邻 分 类 法 的 速度 之 慢 是 众所周知 的 ， 直 到 20 世纪 90 年 代 早 期 开始 使 用 kD 树 ， 
尽管 外 树 的 数据 结构 本 身 发 展 要 早 得 多 。 在 实践 中 ， 当 实例 空间 的 维 数 增加 时 ， 这 些 树 
就 变 得 效率 很 低 ， 只 有 当 属 性 数量 很 小 时 ， 最 高 为 10， 它 才 有 应 用 价值 。 球 树 是 最 近 才 研 
究 的 ， 是 属于 一 种 更 为 通用 结构 的 一 个 实例 ， 这 个 通用 结构 有 时 称 为 度量 树 (metric 
tree) 。 由 一 些 高 级 的 算法 创建 的 度量 树 能 够 成 功 地 处 理 数 千 维 的 实例 空间 。 

采用 将 所 有 训练 实例 压缩 到 多 个 区 域 里 的 方法 来 取代 存储 所 有 实例 。 在 4. 1 节 结 尾部 
分 提 到 一 个 非常 简单 的 技术 ， 记 录 在 训练 数据 上 所 观察 到 的 每 一 个 属性 值 和 每 一 种 类 别 上 
的 区 域 。 对 于 给 出 的 一 个 测试 实例 ， 找 出 测试 实例 各 个 属性 值 所 在 的 区 域 ， 选 择 与 测试 实 
例 属性 值 区 域 正 确 对 应 数量 达 最 多 的 那个 类 作为 这 个 实例 的 类 别 。 一 个 更 为 精细 的 技术 是 
对 每 个 属性 建立 多 个 区 间 ， 并 且 使 用 训练 集 在 每 个 属性 上 对 每 个 属性 值 区 间 统 计 每 个 类 出 
现 的 次 数 。 数 值 属性 可 以 被 离散 化 成 多 个 区 间 ， 由 一 个 点 组 成 的 “区 间 ” 可 以 用 来 处 理 名 
目 属性 值 。 然 后 ， 能 够 判断 出 一 个 测试 实例 的 各 个 属性 值 分 别 属 于 哪个 区 间 ， 用 投票 的 方 
式 对 测试 实例 进行 分 类 ， 这 种 方法 称 为 投票 特征 区 间 (voting feature intervals) 。 这 些 是 近 
似 的 方法 ,但 是 运行 速度 很 快 ， 可 以 用 来 对 大 的 数据 集 进行 初步 分 析 。 


4.8 Be 


不 是 预测 实例 的 类 别 ， 而 是 将 实例 分 成 自然 的 组 时 ， 就 需要 用 聚 类 技术 。 这 些 聚 类 想 
必 反 映 了 在 实例 所 属 的 某 个 领域 中 的 一 些 运 作 机 制 ， 这 些 机 制导 致 一 些 实例 之 间 彼 此 十 分 
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相似 ， 而 有 别 于 其 他 实例 。 自 然 聚 类 所 需要 的 技术 不 同 于 我 们 目前 学 习 的 分 类 和 关联 学 习 
的 方法 。 

正如 3.6 节 所 述 ， 有 多 种 表示 聚 类 结果 的 方法 。 识 别 出 的 组 可 以 是 排他 的 ， 因 此 任何 
实例 只 能 属于 其 中 的 某 一 个 组 ; 或 者 是 可 以 重 春 的 组 ， 因 此 一 个 实例 可 以 落 入 多 个 组 ; 或 
者 是 以 概率 的 形式 ， 一 个 实例 是 以 一 定 的 概率 分 属于 每 个 组 ; 或 者 是 分 层 的， 在 顶层 将 实 
例 大 致 地 进行 分 组 ， 随 后 每 一 个 组 再 被 进一步 细 分 ， 也 许 所 有 路 径 最 终 都 要 到 达 一 个 单独 
的 实例 。 对 这 些 可 能 方法 的 选择 应 该 由 运作 机 制 的 本 质 属 性 所 支配 ， 这 些 运作 机 制 被 认为 
是 特定 聚 类 现象 的 依据 。 然 而 ， 因 为 这 些 运 作 机 制 很 少 被 认 知 〈 毕 竟 聚 类 是 真正 存在 的 ， 
我 们 正 试图 去 发 现 它 ) ， 再 加 上 一 些 实践 运用 上 的 原因 ， 所 以 方法 的 选择 通常 是 由 现存 的 
RAT AS Sc BUS 

下 面 将 考察 一 个 算法 ， 这 个 算法 将 在 数值 领域 内 形成 聚 类 ， 把 实例 划分 到 不 相交 的 聚 
类 上 。 正 如 基于 实例 学 习 的 基本 最 近邻 法 一 样 ， 它 是 一 个 简单 明了 的 技术 ， 已 经 使 用 了 几 
十 年 。 在 第 6 章 将 讨论 一 些 新 的 聚 类 方法 ， 这 些 方 法 将 产生 增 量 聚 类 和 概率 聚 类 。 


4.8.1 基于 距离 的 迭代 聚 类 


经 典 的 聚 类 技术 称 为 左 均值 (k-means) 。 首 先 ， 指 定 所 需 寻 找 的 聚 类 个 数 ， 这 便 是 参 
数 5。 然 后 随机 选 出 左 个 点 作为 聚 类 的 中 心 。 根 据 普 通 的 欧 几 里 得 距离 变量 ， 将 所 有 的 实 
例 分 配 到 各 自 最 靠近 的 聚 类 中 心 。 下 一 步 是 计算 出 实例 所 在 的 每 个 聚 类 的 质心 〈cen- 
troid) ， 或 者 均值 ， 这 就 是 “均值 ”部 分 。 这 些 质心 将 成 为 各 个 聚 类 的 新 的 中 心 值 。 最 后 ， 
用 新 的 聚 类 中 心 重复 整个 过 程 。 和 迭代 过 程 不 断 继续 直 到 在 连续 的 几 轮 里 ， 每 个 聚 类 上 分 到 
的 点 与 在 上 一 轮 分 到 的 点 相同 ， 此 时 聚 类 的 中 心 已 经 固定 ， 并 且 会 永远 保持 。 

这 个 聚 类 法 简单 并 且 有 效 。 容 易 证 明 选 择 质心 作为 聚 类 的 中 心 ， 使 得 聚 类 中 每 一 个 点 
到 中 心 的 距离 平方 和 达到 最 小 。 一 旦 迭代 过 程 的 结果 趋 于 稳定 ， 每 一 个 点 被 分 配 到 离 它 最 
近 的 取 类 中 心 ， 所 以 最 终 是 将 所 有 点 到 它们 各 自 聚 类 中 心 的 距离 平方 和 最 小 化 。 但 是 ,， 它 
只 是 一 个 局 部 的 最 小 值 ， 并 不 能 保证 是 一 个 全 局 的 最 小 值 。 最 终 的 聚 类 对 初始 的 聚 类 中 心 
相当 敏感。 在 初始 随机 选择 上 的 微小 变化 会 造成 完全 不 同 的 聚 类 结果 。 实 际 上 ， 通 常 不 可 
能 找到 全 局 最 优 的 聚 类 ， 这 也 是 所 有 实际 应 用 聚 类 技术 的 真实 现状 。 为 了 增加 找到 全 局 最 
小 值 的 机 会 ， 人 们 经 常 需要 用 不 同 的 初始 选择 多 次 运行 算法 ， 然 后 从 中 选择 一 个 最 佳 的 结 
果 ， 即 距离 平方 和 最 小 的 那个 。 

可 以 容易 地 设想 出 一 个 用 均值 方法 聚 类 失败 的 情况 。 假 设 ,在 一 个 2 维 空间 上 有 4 
个 实例 分 布 在 一 个 矩形 的 〈4 个 ) 顶端。 处 于 短 边 两 端的 实例 分 别 形 成 两 个 自然 的 聚 类 。 
但 是 ， 如 果 两 个 初始 聚 类 的 中 心 落 在 长 边 的 中 点 上 ， 将 会 产生 一 个 稳定 的 结构 ， 无 论 长 边 
和 短 边 之 差 如 何 大 ， 所 产生 的 两 个 聚 类 中 的 每 一 个 都 将 拥有 位 于 长 边 两 端的 两 个 实例 。 

通过 仔细 挑选 初始 聚 类 中 心 〈 通 常 也 称 为 “种 子 " ) ， 可 以 极 大 地 提高 大 均值 聚 类 算法 的 
效率 。 下 面 给 出 的 方法 相 较 于 那 种 随意 选择 种 子 集 的 方法 有 更 好 的 算法 效率 。 首 先 按 照 等 概 
率 从 整个 空间 中 随机 挑选 一 个 种 子 。 然 后 按照 正比 于 每 一 个 点 与 第 一 个 种 子 之 间距 离 平方 的 
概率 来 挑选 第 二 个 种 子 。 接 下 来 ， 在 每 一 个 阶段 ， 都 按照 正比 于 每 一 个 点 与 已 选 出 的 种 子 之 
间距 离 平 方 的 概率 来 挑选 后 续 的 种 子 。 这 样 的 过 程 称 为 均值 ++ (k-means ++) 算法 , € 
比 随机 挑选 种 子 的 大 均值 算法 有 更 快 的 速度 和 更 好 的 准确 性 。 
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4. 8.2 快速 距离 计算 


k 均值 聚 类 算法 通常 需要 多 次 和 迭 代 ， 每 次 都 要 计算 每 一 个 实例 到 大 个 聚 类 中 心 的 距离 ， 
从 而 决定 它 的 聚 类 。 利 用 一 些 简单 的 近似 法 可 以 使 计算 速度 大 大 提高 。 例 如 ， 可 以 将 数据 
集 投 影 ， 然 后 按照 选 定 的 轴 进 行 分 裂 ， 取 代 由 选择 最 近 的 聚 类 中 心 所 使 用 的 任意 超 平面 的 
分 裂 法 。 但 是 所 得 到 的 聚 类 的 质量 不 可 避免 地 会 降低 。 

这 里 介绍 一 个 更 好 的 加 速 法 。 寻 找 最 近 聚 类 中 心 和 用 基于 实例 学 习 方 法 寻找 最 近邻 差 
别 并 不 是 很 大 。 那 么 是 否 同样 可 以 借用 加 树 和 球 树 这 两 种 有 效 的 解决 方案 ? 当然 可 以 ! 
实际 上 ， 可 以 采用 一 个 更 加 有 效 的 方法 ， 因 为 在 上 均值 的 每 一 次 迭代 过 程 中 ， 所 有 的 数据 
点 都 被 一 起 处 理 ， 而 在 基于 实例 的 学 习 中 ， 测 试 实例 被 单独 处 理 。 

首先 ， 为 所 有 的 数据 点 创建 一 个 KD 树 或 者 球 树 ， 它 们 在 整个 聚 类 过 程 中 将 保持 不 变 。 
每 一 次 上 均值 的 迭代 过 程 产生 一 组 率 类 中 心 ， 所 有 数据 点 必须 经 检验 后 ， 分 配 到 最 近 的 至 
类 中 心 。 一 种 处 理 数据 点 的 方法 是 从 树 的 根 结 点 向 下 直到 到 达 叶 子 结 点 ， 然 后 分 别 检查 叶 
子 结 点 上 每 个 点 ， 从 而 寻找 它 的 最 近 聚 类 中 心 。 但 是 ， 也 许 一 个 较 高 位 置 的 内 部 结 点 所 代 
表 的 区 域 会 完全 落 和 人 某 个 单独 的 聚 类 中 心 所 涉及 的 范围 内 。 在 这 种 情况 下 ， 所 有 位 于 那个 
结 点 下 的 数据 点 被 一 次 处 理 完 。 

最 终 目 的 是 通过 计算 数据 点 所 拥有 的 质心 ， 为 聚 类 中 心 寻找 新 的 位 置 。 计 算 质 心 是 利 
用 计算 聚 类 中 数据 点 的 连续 向 量 和 ， 并 且 统 计 到 目前 为 止 数据 点 的 个 数 。 最 后 ， 用 向 量 和 
除 以 统计 个 数 就 得 到 质心 。 假 如 在 树 的 每 一 个 结 点 上 保存 该 结 点 拥有 的 数据 点 向 量 和 ， 以 
及 数据 点 的 个 数 。 当 整个 结 点 落 人 某 个 聚 类 范围 内 时 ， 那 个 聚 类 计算 总 和 便 能 立刻 得 到 更 
新 ; 否则 ， 需 要 深入 查看 结 点 内 部 ， 递 归 地 沿 树 向 下 处 理 。 

图 4-16 使 用 的 是 与 图 4-14 相同 的 实例 和 相同 的 球 树 ， 但 两 个 聚 类 中 心 由 两 个 黑色 的 星 
表示 。 因 为 所 有 的 实例 都 被 分 配 到 最 近 的 聚 类 中 心 ， 所 以 实例 空间 被 一 条 粗 直线 分 成 两 个 部 
分 ， 见 图 4-16a。 从 图 4-16b 中 树 的 根 结 点 开始 ， 每 个 聚 类 的 向 量 和 以 及 每 个 聚 类 拥有 的 数据 
点 的 统计 个 数 都 初始 化 为 0。 处 理 是 自 上 而 下 递归 地 进行 。 当 到 达 A 结 点 时 ， 在 A 上 的 所 有 
数据 点 将 落 入 聚 类 1， 所 以 可 以 用 结 点 A 的 向 量 积 和 数据 点 个 数 来 对 到 类 1 的 向 量 积 和 数据 





a) 两 个 聚 类 中 心 和 它们 的 分 隔 线 b) 对 应 的 树 
图 4-16 一 个 球 树 
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点 个 数 进行 更 新 ， 到 此 为 止 。 然 后 经 递归 返回 到 结 点 B， 因 为 这 个 球 跨 越 了 聚 类 的 边界 ， 所 
以 在 它 上 面 的 数据 点 必须 分 别 检验 。 当 到 达 结 点 C 时 ， 它 完全 落 入 聚 类 2 中 ， 同 样 ， 可 以 立 
即 更 新 聚 类 2， 并 不 再 需要 继续 往 下 进行 。 树 只 需要 检验 到 图 4- 16b 中 的 虚线 边界 处 ， 优 点 
是 至 少 位 于 虚线 以 下 的 结 点 不 需要 处 理 了 ， 至 少 不 需 要 在 这 一 轮 的 均值 迭代 中 进行 处 理 。 
在 下 一 轮 迭 代 中 ， 到 类 中 心 将 会 改变 ,情况 也 许 会 不 同 。 


4.8.3 讨论 


现在 已 经 开发 出 多 种 不 同 的 基本 的 大 均值 算法 。 其 中 的 一 些 算法 是 产生 一 个 层次 聚 
类 ， 它 是 通过 在 整个 数据 集 上 应 用 上 =2 的 天 均值 法 ， 然 后 在 所 产生 的 每 个 聚 类 里 递归 地 
重复 。 

如 何 选择 k? 一 般 并 不 知道 可 能 的 聚 类 的 个 数 ， 所 以 聚 类 的 关键 是 要 找到 这 个 数 。 一 
种 方法 是 试 着 采用 不 同 的 聚 类 的 个 数 ， 从 中 选 出 最 佳 的 。 为 此 ， 需 要 知道 如 何 评估 机 器 学 
习 的 效果 ， 有 关内 容 将 在 第 5 章 阐述 。6. 8 节 将 继续 讨论 聚 类 问题 。 


4.9 多 实例 学 习 


第 2 章 曾 介 绍 过 多 实例 (multi-instance) 学 习 ， 其 中 数据 里 的 每 一 个 样本 都 是 由 多 个 
不 同 实例 组 成 。 我 们 将 这 些 样本 称 为 裳 (bag) (我 们 在 4.2 节 中 曾 提 到 过 袋 和 集合 之 间 的 
区 别 ) 。 在 有 监督 的 多 实例 学 习 中 ， 一 个 类 的 类 标号 是 和 每 一 个 袋 相 关 的， 学 习 的 目的 就 
是 要 决定 如 何 从 组 成 袋 的 实例 中 推断 出 类 别 。 有 些 高 级 算法 用 来 解决 这 样 的 问题 ， 但 实践 
显示 简单 优先 的 方法 论 在 处 理 这 样 的 问题 时 却 有 令 人 吃惊 的 好 结果 。 一 个 简单 但 有 效 的 方 
法 是 将 输入 数据 转换 为 单 实例 学 习 问 题 ， 然 后 采用 如 本 章 所 介绍 的 标准 学 习 算 法 。 下 面 的 
章节 将 介绍 两 个 这 样 的 处 理 方法 。 


4.9.1 聚集 输入 


可 以 通过 计算 平均 值 、 众 数 、 最 小 值 、 最 大 值 等 来 概括 描述 袋 中 实例 并 将 这 些 值 添加 
为 新 的 属性 ， 将 一 个 多 实例 问题 转换 为 单 实例 问题 。 通 过 这 样 的 转换 产生 出 的 每 一 个 “ 概 
括 ” 实 例 保留 了 其 原 属 袋 的 类 标号 。 这 样 ， 就 能 采用 之 前 用 于 单 实例 情况 的 方法 对 一 个 新 
RITIK: 可 以 将 那些 概括 袋 中 实例 的 数值 作为 属性 来 创建 一 个 单独 的 聚集 实例 。 令 人 
惊讶 的 是 ， 对 于 原始 的 、 用 于 刺激 多 实例 学 习 发 展 的 药物 活性 数据 集 来 说 ， 仅 仅 使 用 每 个 
袋 中 每 个 属性 的 最 大 值 和 最 小 值 ， 并 结合 使 用 支持 向 量 机 分 类 器 〈 见 第 6 章 ) ， 便 可 得 到 
与 专门 用 于 多 实例 的 学 习 器 相 媳 美的 结果 。 这 种 方法 有 一 个 潜在 的 缺陷 ， 那 就 是 对 袋 中 诸 
多 实例 最 好 的 统计 学 概括 取决 于 待 处 理 的 数据 本 身 。 尽 管 如 此 ， 由 于 “概括 ”过 程 意味 着 
学 习 算 法 所 处 理 的 实例 数量 变 少 ， 所 以 可 以 在 一 定 程 度 上 抵偿 用 于 计算 不 同 概括 统计 数据 
组 合 的 额外 计算 开销 。 


4.9.2 聚集 输出 


不 同 于 将 每 一 个 袋 中 的 实例 进行 聚集 ， 另 一 种 方法 是 直接 从 组 成 袋 的 原始 实例 中 学 习 
得 到 分 类 器 。 为 此 ,一 个 给 定 袋 中 的 实例 必须 全 部 标注 上 该 袋 的 类 标号 。 在 分 类 的 时 候 ， 
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会 为 待 预测 袋 中 的 每 一 个 实例 做 出 预测 ， 并 且 这 些 预 测 还 将 以 一 定形 式 聚 集 起 来 形成 一 个 
总 的 对 该 袋 的 预测 。 一 种 方法 是 将 这 些 预测 看 做 是 对 不 同类 标号 的 投票 。 如 果 这 样 一 个 分 
类 器 能 够 赋予 每 一 个 实例 特定 的 属于 某 类 的 概率 ， 那 么 就 可 以 将 这 样 的 一 些 概率 取 均 值 形 
成 某 袋 属 于 某 类 的 总 体 概率 。 这 种 方法 将 实例 视 为 彼此 独立 的 个 体 ， 并 且 给 予 它 们 在 预测 
类 标号 时 相同 的 影响 力 。 

这 里 存在 一 个 问题 : 训练 数据 中 的 这 些 袋 所 包含 的 实体 数量 并 不 相同 。 理 想 情 况 下 ， 
在 最 终 习 得 的 模型 中 所 有 袋 都 具有 相同 的 影响 力 。 如 果 学 习 算法 接受 实例 级 的 权重 ， 那么 
可 以 赋予 某 袋 中 每 一 个 实例 反比 于 该 袋 大 小 的 权重 。 如 果 一 个 袋 包含 ”个 实例 ， 那 么 就 赋 
了 予 该 袋 中 的 每 一 个 实例 L/n 的 权重 ,这 样 既 保证 了 袋 中 所 有 实例 在 分 类 时 具有 同等 的 贡 
献 ， 又 确保 了 每 一 个 袋 总 的 权重 为 1 。 


4.9.3 讨论 


前 述 所 有 处 理 多 实例 问题 的 方法 都 没有 考虑 那个 最 初 关于 多 实例 的 假设 ， 也 即 当 且 仅 
当 某 袋 中 至 少 有 一 个 正 实 例 时 ， 该 袋 才能 称 为 正 的 。 而 是 将 袋 中 的 每 一 个 实体 都 视 为 对 分 
类 具有 同等 的 贡献 ， 这 也 是 可 以 采用 标准 学 习 算法 进行 多 实例 学 习 的 关键 因素 。 此 外 ， 识 
别 那些 对 袋 分 类 具有 关键 作用 的 “特殊 ”实例 是 非常 必要 的 。 


4.10 ”补充 读物 


Holte (1993) 对 1R 算法 进行 了 充分 的 研究 。1R 以 前 并 没有 真正 被 认为 是 一 种 机 器 
学 习 方 法 ， 其 目的 是 要 证 明 用 于 评估 机 器 学 习 方 案 的 许多 实际 数据 集 的 结构 非常 简单 ， 而 
那些 被 赋予 了 高 性 能 的 归纳 推论 法 作用 在 简单 数据 集 上 时 ， 就 像 杀 鸡 使 用 宰 牛 刀 。 当 一 个 
简单 规则 可 行 时 为 什么 还 要 使 用 复杂 的 决策 树 ? 巴西 的 Lucio de Souza 和 新 西 兰 的 Len 
Trigg 提出 为 每 一 类 产生 一 个 简单 规则 的 方法 ， 这 种 方法 被 誉 为 超 管 道 (hyperpipes) 法 。 
一 个 异常 简单 的 算法 的 优势 在 于 处 理 速度 非常 快 ， 甚 至 在 属性 的 数量 庞大 时 仍然 很 快 。 

贝 叶 斯 是 18 世纪 英国 的 哲学 家 ， 他 在 “运用 可 能 性 学 说 解决 问题 ”上 ， 创 立 了 他 的 
概率 理论 ， 发 表 在 《Philosophical Transactions of the Royal Society of London) ( Bayes, 
1763) 上 。 从 那 时 起 ， 用 他 的 名 字 命名 的 规则 已 经 成 为 概率 理论 的 基石 。 在 实际 中 ， 贝 叶 
斯 规则 应 用 的 难点 是 先 验 概率 的 分 配 问 题 。 

有 些 被 誉 为 贝 叶 斯 专家 的 统计 学 家 ， 把 贝 叶 斯 规则 当做 真理 ， 并 且 坚 持 认为 必须 尽力 
正确 地 估计 先 验 概率 一 一 尽管 这 些 估计 通常 是 主观 的 。 而 另 一 些 非 贝 叶 斯 学 家 ， 则 倾向 于 
无 先 验 分 析 ， 产 生 一 个 统计 的 置信 度 区 间 ， 这 部 分 内 容 将 在 第 5 章 介绍 。 在 一 个 具体 的 数 
据 集 上 ， 先 验 概率 通常 相当 容易 估计 ， 这 使 得 采用 贝 叶 斯 方法 进行 学 习 受 到 鼓励 。 由 朴素 
贝 叶 斯 法 得 出 的 属性 独立 的 假设 是 一 个 巨大 的 障碍 ， 然 而 ， 有 些 方法 可 以 不 必 假 设 属性 独 
立 来 使 用 贝 叶 斯 分 析 。 结 果 模 型 称 为 贝 叶 斯 网 络 (Bayesian networks) (Heckerman 等 ，1995 ) ， 
有 关内 容 将 在 6.7 节 介 绍 。 

贝 叶 斯 技术 在 被 机 器 学 习 研 究 者 〈 如 Langley 等 ，1992) 采纳 以 前 已 经 在 模式 识别 领 
域 (Duda 和 Hart, 1973) 应 用 20 ÆT, Langley 和 Sage( 1994) 将 贝 叶 斯 法 用 于 存在 宛 余 
属性 的 数据 集 上 ，John 和 Langley(1995) 将 贝 叶 斯 法 用 于 数值 属性 上 。 从 字面 上 看 ， 朴 素 
贝 叶 斯 是 一 个 简单 的 方法 ， 但 在 某 些 场合 ， 它 一 点 也 不 简单 。McCallum 和 Nigam( 1998) 
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研究 出 专门 针对 文本 分 类 的 多 项 式 朴 素 贝 叶 斯 模型 。 

Quinlan(1986) 发 表 了 经 典 的 决策 树 归纳 论文 , 正 是 他 描述 了 基本 的 IDS 产生 过 程 ， 
在 本 章 中 对 这 个 算法 进行 了 开发 。 在 Quinlan(1993) 的 一 本 经 典 书 中 给 出 了 对 这 个 方法 的 
综合 描述 ， 包 括 C4.5 系统 的 改进 ， 并 且 列 出 了 用 C 语言 开发 的 完整 的 C4.5 系统 。Cend- 
rowska(1987) 开发 了 PRISM， 也 是 他 推出 了 隐形 眼镜 数据 集 。 

关联 规则 的 提出 和 讨论 出 现在 数据 库 文献 而 不 是 机 器 学 习 文 献 中 。 对 关联 规则 的 研究 
着 重 于 如 何 处 理 数 量 庞大 的 数据 ， 而 不 是 在 有 限 数 据 集 上 对 算法 的 测试 和 评估 方法 的 研 
究 。 本 章 介绍 的 Apriori 算法 是 由 Agrawal 和 他 的 同事 (Agrawal 等 1993a，1993b; Agrawal 
和 Srikant, 1994) 共同 开发 的 。Chen 等 (1996) 发 表 了 一 个 关联 规则 数据 挖掘 的 调查 

Be 

在 很 多 标准 的 统计 书 中 描述 了 线性 回归 法 ，Lawson 和 Hanson( 1995) 介绍 了 一 个 特别 
成 熟 的 处 理 方法 。 在 20 世纪 60 年 代 ， 使 用 线性 模型 进行 分 类 引起 了 人 们 的 极 大 关注 ， 
Nilsson(1965) 提供 了 一 个 极 好 的 参考 书目 ， 他 将 线性 阀 值 单元 (linear threshold unit) 定 
义 为 判定 一 个 线性 函数 的 结果 是 否 大 于 或 者 小 于 0 的 一 个 二 元 测试 ， 并 将 线性 机 (linear 
machine) 定义 为 一 系列 的 线性 函数 ， 每 一 类 对 应 一 个 线性 函数 ， 将 线性 函数 在 一 个 未 知 
样本 上 所 得 到 的 值 进行 比较 ， 其 中 最 大 值 所 对 应 的 类 就 是 这 个 样本 的 预测 类 别 。 很 久 以 
前 ,一 本 有 影响 的 书 ( Minsky 和 Papert, 1969) 中 声明 感知 机 存在 基本 原理 上 的 局 限 ， 所 
以 没有 受到 重视 。 然 而 有 些 更 复杂 的 线性 函数 系统 以 神经 网 络 的 形式 在 近 几 年 得 到 重新 发 
fe, 6.4 节 将 具体 讨论 神经 网 络 。1989 年 ，Nick Littlestone 在 他 的 博士 论文 中 介绍 了 Win- 
now 算法 〈Littlestone，1988 ，1989 ) 。 最 近 多 反馈 的 线性 分 类 法 已 经 在 一 个 称 为 栈 (stac- 
king) 的 操作 上 找到 新 的 应 用 领域 ， 它 结合 了 其 他 机 器 学 习 算 法 的 结论 ， 有 关内 容 将 在 第 
8 章 介 绍 (Wolpert, 1992), 

Fix 和 Hodges(1951) 首先 对 最 近邻 方案 进行 了 分 析 ，Johns(1961) 开创 了 最 近邻 法 在 
分 类 问题 方面 的 使 用 。Cover 和 Hart(1967) 给 出 了 经 典 的 理论 结论 : 对 于 足够 大 的 数据 
集 ， 它 产生 的 误差 概率 不 会 超出 理论 最 小 值 的 两 倍 ; Devroye 等 (1996) 指出 上 最 近邻 法 
是 当 增 大 k 和 n FFE k/n 时 ,将 逐渐 趋 于 最 佳 。 经 过 Aha(1992) 的 研究 努力 ， 最 近 
邻 法 在 机 器 学 习 领 域 受 到 重视 ，Aha 指出 基于 实例 的 学 习 法 经 过 结合 噪声 样本 剪 枝 和 属性 
加 权 法 以 后 ， 与 其 他 机 器 学 习 方法 相 比 ， 性 能 更 加 优越 。 我 们 将 在 第 6 章 介绍 。 

kD 树 的 数据 结构 是 由 Friedman 等 (1977) 开发 的 。 我 们 的 描述 严格 遵循 了 Andrew 
Moore 在 他 博士 论文 里 的 描述 (Moore, 1991), Andrew 和 Omohundro (1987) 一 起 拓展 了 
kD 树 在 机 器 学 习 领 域 的 使 用 。Moore(2000) 讨论 了 一 些 成 熟 的 创建 球 树 的 方法 ， 这 些 方 
法 在 拥有 数 千 个 属性 的 数据 集 上 表现 优异 。 本 书 使 用 的 球 树 例 子 是 从 卡 内 基 - 梅 隆 大 学 的 
Alexander Gray 的 教学 笔记 上 摘 取 的 。 在 4.7 节 最 后 部 分 的 讨论 小 节 中 提 到 的 投票 特征 区 
间 是 由 Demiroz 和 Guvenir (1997) 描述 的 。 

k 均值 算法 是 一 个 经 典 的 技术 ， 有 很 多 有 关 的 描述 和 版 本 (如 Hartigan, 1975), ky 
值 ++ 算法 变 体 ， 通 过 更 仔细 地 选择 原始 种 子 使 该 算法 获得 了 显著 提高 ， 这 是 由 Arthur 和 
Vassilvitskii(2007) 在 2007 年 引入 的 。 我 们 所 选用 的 使 用 球 树 取代 kD 树 来 加 速 大 均值 聚 
类 法 ， 是 由 Moore 和 Pelleg(2000) 在 他 们 的 蕊 均值 聚 类 算法 中 开创 的 。 这 种 算法 包含 的 其 
他 创新 将 在 6. 8 节 介 绍 。 

采用 标准 单 实例 学 习 算 法 从 概括 得 到 的 袋 层 级 上 来 处 理 多 实例 学 习 问 题 ， 这 样 的 方法 
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由 Gartner 等 (2002) 结合 支持 向 量 机 得 以 应 用 。 另 一 种 聚集 输出 的 方法 由 Frank 和 Xu 
(2003) 提出 。 


4. 11 


Weka 实现 


对 于 分 类 器 ， 见 11.4 节 和 表 11-5。 


基本 的 推断 规则 : OneR，HyperPipes (为 每 个 类 学 习 一 个 规则 ) 。 

统计 模型 : 

o NaiveBayes (朴素 贝 叶 斯 ) 以 及 其 变 体 ， 包 括 NaiveBayesMultinomial (朴素 贝 叶 
斯 多 项 式 ) 。 

决策 树 : Id3 。 

决策 规则 : Prism。 

关联 规则 (HL 11.7 节 和 表 11-8) : apriori。 

线性 模型 : 

o 简单 线性 回归 、 线 性 回归 和 Logistic 〈 回 归 ) 。 

o 投票 感知 机 ，Winnow。 

基于 实例 的 学 习 : IBI, VEI (投票 特征 区 间 ) 。 

RÆ (UL 11.6 节 和 表 11-7) : SimpleKMeans, 

多 实例 学 习 : SimpleMI, MIWrapper, 
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评估 是 数据 挖掘 能 否 取得 真正 进展 的 关键 一 环 。 我 们 已 经 见 到 了 许多 从 原始 数据 中 推 
出 某 种 结构 的 方法 。 在 第 6 章 中 还 将 介绍 更 为 细致 的 新 方法 。 要 决定 采取 何 种 方法 来 解决 
某 一 具体 问题 ， 需 要 对 不 同 的 方法 进行 系统 的 比较 和 评估 。 评 估 并 不 像 看 上 去 那样 简单 。 

问题 是 什么 ? 我 们 有 训练 集 ， 当 然 我 们 可 以 只 观察 不 同方 法 在 这 个 训练 集 上 所 得 到 结 
果 的 好 坏 。 然 而 ， 我 们 很 快 会 发 现 ， 在 训练 集 上 表现 好 绝 不 意味 着 在 独立 的 测试 集 上 也 会 
有 好 的 表现 。 我 们 需要 能 预测 在 实践 中 性 能 表现 的 评 佑 方法 ， 这 个 预测 基于 所 能 得 到 的 任 
何 数据 上 的 实验 。 

当 数据 来 源 很 充足 时 ， 这 并 不 是 问题 。 只 要 在 一 个 大 的 训练 集 上 建 模 ， 然 后 在 另外 一 
个 大 的 测试 集 上 验证 。 虽 然 数据 挖 掘 时 常 涉及 “大 数据 ”， 特 别 是 在 市 场 、 销 售 和 客户 支 
持 应 用 中 ， 但 是 也 经 常 出 现 数据 〈 有 质量 的 数据 ) 匮乏 的 情形 。 比 如 在 第 1 章 (1.34) 
中 提 到 的 海面 浮 油 应 用 ， 训 练 数据 必须 经 过 人 工 检测 和 标记 方 可 使 用 ， 这 是 一 个 非常 专 
业 ， 且 劳动 力 密集 的 过 程 。 甚 至 在 信用 卡 申请 (1.3 节 ) 例子 中 ， 只 有 1000 个 适当 的 训 
练 实例 。 在 供电 数据 (1.3 节 ) 中 ， 如 果 追 漳 到 15 年 前 ， 共 有 5000 天 ， 但 其 中 只 有 15 个 
圣诞 节 、15 个 感恩 节 、4 个 2 月 29 日 和 4 个 总 统 大 选 日 。 在 电子 机 械 诊 断 应 用 (1.3 35) 
H, RA 20 年 的 使 用 记录 ,但 是 其 中 只 包含 了 300 个 可 用 的 故障 例子 。 虽 然 市 场 和 销售 
应 用 (3.3 节 ) 肯定 涉及 大 量 数据 ,但 是 许多 其 他 应 用 经 常 依赖 于 某 些 专家 的 专业 意见 ， 
以 至 于 数据 缺乏 。 

基于 有 限 数据 的 性 能 预测 是 一 个 有 趣 的 问题 ， 仍 存 争议 。 性 能 预测 有 许多 不 同 的 技 
术 ， 其 中 重复 交叉 验证 (repeated cross-validation) 在 实践 中 或 许 是 适合 大 部 分 有 限 数据 情 
形 的 预测 方法 。 比 较 不 同 的 机 器 学 习 方 法 在 某 个 给 定 问 题 上 的 性 能 也 并 非 易 事 ， 需 要 用 统 
计 学 检验 来 确定 那些 明显 的 差异 并 非 是 偶然 产生 的 。 

到 目前 为 止 ， 我 们 默认 所 要 预测 的 是 对 测试 实例 进行 正确 分 类 的 能 力 。 然 而 ， 在 某 些 
情况 下 ， 却 要 涉及 预测 分 类 概率 而 非 类 别 本 身 ， 另 一 些 情 况 需要 预测 数值 型 而 不 是 名 目 属 
性 值 。 需 要 视 不 同情 形 而 使 用 不 同 的 方法 。 接 下 来 我 们 要 看 看 成 本 问题 。 在 大 多 数 的 实际 
数据 挖掘 情形 中 ， 分 类 错误 的 成 本 是 由 错误 的 类 型 所 决定 的 ， 如 错误 是 将 一 个 正 例 错误 地 
归 类 为 负 例 ， 还 是 反 过 来 〈 将 负 例 归 类 为 正 例 ) 。 在 进行 数据 挖掘 及 性 能 评估 时 ， 这 些 成 
本 的 考虑 是 非常 重要 的 ， 所 幸 的 是 采用 一 些 简单 的 技术 能 使 大 多 数 的 学 习 方 法 具有 成 本 人 敏 
感性 ， 而 不 需要 在 算法 内 部 实现 。 最 后 ， 从 整体 上 看 ,评估 有 着 迷人 的 哲学 含义 ， 哲 学 家 
已 对 如 何 评估 科学 理论 辩论 了 2000 年 ， 此 议题 也 是 数据 挖掘 的 一 个 焦点 ， 因 为 从 本 质 上 
来 看 ， 我 们 挖掘 的 是 数据 的 “理论 ”。 


5.1 训练 和 测试 


对 于 分 类 问题 ， 自 然 是 采用 误差 率 (eror rate) 来 衡量 一 个 分 类 器 的 性 能 。 分 类 器 对 
每 个 实例 进行 类 别 预测 ， 如 果 预 测 正确 ， 则 分 类 正确 ， 反 之 则 分 类 错误 。 误 差 率 就 是 所 有 
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错误 在 整个 实例 集中 所 占 的 比例 。 误 差 率 是 对 分 类 器 总 体 性 能 的 一 个 衡量 。 

当然 ， 我 们 感 兴趣 的 是 分 类 器 对 未 来 新 数据 的 分 类 效果 ， 而 非 昌 数据 。 训 练 集 中 每 
个 实例 (训练 集 ) 的 类 都 是 已 知 的 ， 正 因 为 如 此 才能 用 它 进行 训练 。 通 常 我 们 不 是 对 
学 习 这 些 实例 的 分 类 感 兴趣 ， 除 非 是 要 进行 数据 整理 而 非 预 测 。 问 题 是 在 旧 数 据 集 上 得 
出 的 误差 率 是 否 可 以 代表 在 新 数据 集 上 的 误差 率 ? 答案 当然 是 否定 的 ， 如 果 分 类 器 是 用 
旧 数 据 集 训练 出 来 的 。 

这 是 一 个 令 人 惊讶 的 ， 也 是 非常 重要 的 事实 。 分 类 器 对 训练 集 进行 分 类 而 得 出 的 误差 
率 并 不 能 很 好 反映 分 类 器 未 来 的 工作 性 能 。 为 什么 ? 因为 分 类 器 正 是 通过 学 习 这 些 相同 的 
训练 数据 而 来 的 ， 因 此 该 分 类 器 在 此 训练 数据 集 上 进行 的 任何 性 能 评估 结果 都 是 乐观 的 ， 
而 且 是 绝对 乐观 。 

我 们 曾 在 劳资 关系 数据 集中 见 过 这 样 的 例子 。 图 1-3b 是 由 训练 数据 直接 产生 的 ， 
图 1-3a 则 是 经 过 剪 枝 处 理 的 。 若 用 训练 数据 对 二 者 进行 评估 ， 前 者 似乎 更 准确 。 但 若 用 独 
立 的 测试 数据 对 二 者 进行 评估 ， 前 者 的 表现 很 可 能 会 不 如 后 者 ， 因 为 前 者 与 训练 数据 过 度 
拟 合 。 根 据 在 训练 数据 上 得 出 的 误差 率 ， 前 一 个 决策 树 在 训练 数据 上 的 误差 率 看 起 来 比 后 
一 个 决策 树 要 好 ， 但 这 并 不 能 反映 它们 将 来 在 独立 的 测试 数据 上 的 表现 。 

用 训练 数据 进行 测试 所 产生 的 误差 率 称 为 再 代入 误差 (resubstitution error) ， 因 为 它 是 
将 训练 实例 重新 代 和 人 由 这 些 训练 实例 而 产生 的 分 类 器 进行 计算 的 。 虽 然 它 不 能 可 靠 地 反映 
分 类 器 在 新 数据 上 真实 的 误差 率 ， 但 依然 是 有 参考 价值 的 。 

为 了 能 预测 一 个 分 类 器 在 新 数据 上 的 性 能 表现 ， 需 要 一 组 没有 参与 分 类 器 建立 的 数据 
集 ， 并 在 此 数据 集 上 评估 分 类 器 的 误差 率 。 这 组 独立 的 数据 集 叫 测试 集 (test set) 。 我 们 
假设 训练 数据 和 测试 数据 都 是 潜在 问题 的 代表 性 样本 。 

在 某 些 情况 下 ， 测 试 数据 也 许 和 训练 数据 存在 着 明显 的 差别 。 例 如 ， 在 1. 3 节 中 提 到 
的 信用 风险 问题 。 假 设 银行 现 有 来 自 纽 约 和 佛罗里达 州 两 个 分 行 的 训练 数据 ， 银 行 想 用 其 
中 的 一 个 数据 集 来 训练 出 一 个 分 类 器 ， 然 后 看 看 此 分 类 器 用 在 内 布 拉 斯 加 州 新 分 行 结果 会 
如 何 。 可 以 将 佛罗里达 州 的 数据 作为 测试 数据 ， 评 估 由 纽约 数据 训练 的 分 类 器 ; 同时 将 纽 
约 的 数据 作为 测试 数据 ， 评 估 由 佛罗里达 州 数 据 训 练 的 分 类 器 。 如 果 在 训练 前 就 将 两 个 分 
行 的 数据 合并 ， 在 测试 数据 上 的 性 能 评估 怒 怕 不 能 较 好 地 反映 此 分 类 器 将 来 用 于 另 一 个 完 
全 不 同 的 州 银行 的 分 类 性 能 。 

测试 数据 不 能 以 任何 方式 参与 分 类 器 的 创建 ， 这 点 非常 重要 。 举 例 来 说 ， 有 些 学 习 方 
法 包括 两 个 阶段 ， 第 一 阶段 是 建立 基本 结构 ， 第 二 阶段 是 对 结构 所 包含 的 参数 进行 优化 ， 
这 两 个 阶段 需要 使 用 不 同 的 数据 集 。 或 者 你 可 能 会 在 训练 数据 上 尝试 多 种 方法 ， 然 后 用 新 
的 数据 集 对 这 些 分 类 器 进行 评估 ， 找 出 最 好 的 。 但 是 所 有 这 些 数 据 都 不 可 用 于 估计 未 来 的 
误差 率 。 

这 就 是 人 们 经 常 提 到 的 三 种 数据 集 : 训练 数据 (training data) 、 验 证 数据 (validation 
data) 和 测试 数据 (test data) 。 训 练 数据 用 在 一 种 或 多 种 学 习 算 法 中 创建 分 类 器 ; 验证 数 
据 用 于 优化 分 类 器 的 参数 ， 或 用 于 选择 某 一 分 类 器 ; 测试 数据 则 用 于 计算 最 终 经 过 优化 的 
某 一 方法 的 误差 率 。 三 个 数据 集 必 须 保 持 独立 性 ， 验 证 数据 集 必 须 有 别 于 训练 数据 集 以 获 
得 较 好 的 优化 或 选择 阶段 的 性 能 ， 同 时 测试 数据 集 也 必须 有 别 于 其 他 两 个 数据 集 以 获得 对 
真实 误差 率 的 可 靠 估计 。 

一 旦 确定 了 误差 率 , 便 可 以 将 测试 数据 合并 到 训练 数据 中 ， 由 此 产生 新 的 分 类 器 应 用 
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于 实践 中 。 这 并 没有 错 ， 使 用 尽 可 能 多 的 数据 来 建立 分 类 器 ， 这 是 一 种 实践 中 常用 的 方 
法 。 对 于 表现 好 的 学 习 方 法 ， 这 样 做 不 会 降低 预测 性 能 。 同 样 ， 一 旦 验证 数据 已 被 使 用 
(也 许 用 于 选择 最 好 的 学 习 方法 ) ， 那 么 可 以 将 验证 数据 合并 到 训练 数据 中 ， 使 用 尽 可 能 多 
的 数据 重新 训练 学 习 方 法 。 

如 果 数 据 源 充 足 ， 一 切 都 没有 问题 。 可 以 取 一 个 大 的 样本 用 来 训练 ， 取 另 一 个 不 同 的 
且 独 立 的 大 样本 数据 用 于 测试 。 这 两 个 样本 都 具有 代表 性 ， 由 测试 集 得 出 的 误差 率 将 反映 
其 未 来 的 真实 性 能 。 一 般 来 说 ， 训 练 样本 越 大 ， 创 建 的 分 类 器 性 能 越 好 ， 虽 然 当 训练 样本 
超过 一 定 的 限度 时 ， 人 性 能 提高 将 会 有 所 减缓 。 测 试 样本 越 大 ， 误 差 估 计 越 准确 。 误 差 估 计 
的 准确 性 可 从 统计 学 角度 进行 量化 ， 这 点 我 们 将 在 5.2 节 中 进行 分 析 。 

当 数 据 源 不 充足 时 会 出 现 问题 。 在 许多 情况 下 ， 训 练 数 据 必须 由 人 工分 类 ， 为 了 进行 
误差 估计 ， 测 试 数据 也 是 如 此 。 这 使 可 用 于 训练 、 验 证 和 测试 的 数据 量 非常 有 限 。 问 题 在 
于 怎样 才能 最 好 地 利用 这 样 有 限 的 数据 集 。 将 数据 集中 的 一 部 分 数据 置 于 一 旁 用 于 测试 称 
HFE (holdout) 过 程 ， 剩 余 的 数据 用 于 训练 (如 有 必要 可 再 保留 一 部 分 用 于 验证 ) 。 这 
里 出 现 了 一 个 难题 : 要 得 到 一 个 好 的 分 类 器 需 要 尽 可 能 多 的 数据 用 于 训练 ; 而 要 得 到 一 个 
准确 的 误差 佑 计 ， 也 需要 尽 可 能 多 的 数据 用 于 测试 。 我 们 将 在 5.3 节 和 5. 4 节 回 顾 用 于 解 
决 这 个 难题 的 常用 方法 。 


5.2 预测 性 能 


假设 用 测试 集 度量 分 类 器 的 误差 率 ， 得 到 一 个 误差 率 ， 假设 为 25% 。 在 这 一 节 中 我 们 
实际 上 要 谈论 的 是 正确 率 而 不 是 误差 率 ， 那 么 对 应 的 正确 率 是 75% 。 这 仅 是 一 个 估计 值 ， 
那么 目标 总 体 真 正 的 正确 率 是 多 少 呢 ? 当然 ， 预 计 应 接近 75% 。 但 到 底 有 多 接近 ? 5% 以 
内 ? 10% 以 内 ? 这 个 答案 依赖 于 测试 数据 集 的 规模 。 一 般 来 说 ，75% 的 正确 率 若 是 基于 
10 000 个 实例 的 测试 集 而 得 到 的 ， 那么 它 的 可 信和 度 要 高 于 基于 100 个 实例 的 测试 集 而 得 到 
的 。 但 可 信和 度 到 底 高 多 少 ? 

为 了 回答 这 个 问题 ， 需 要 一 些 统计 学 推理 。 在 统计 学 中 ， 一 连 串 不 是 正确 就 是 错误 的 
独立 事件 ， 称 为 伯 努 利 过 程 (Bernoulli process) 。 抛 掷 硬币 是 一 个 经 典 的 例子 。 每 次 抛掷 
是 一 个 独立 事件 。 假 使 总 是 预测 正面 出 现 ， 这 里 我 们 不 用 “正面 ”或 “反面 ”来 描述 ， 
我 们 把 每 次 抛掷 结果 可 视 为 “正确 ”或 “错误 ”。 假 设 硬币 正 、 反 面 是 有 偏差 的 ， 但 并 不 
知道 正面 的 概率 有 多 大 。 如 果 抛 搓 100 次 ， 其 中 75 次 是 正面 ， 那 么 就 拥有 了 一 个 与 上 述 
在 测试 集 上 有 75% 正确 率 的 分 类 器 极为 相似 的 情况 。 应 该 怎样 描述 真正 的 正确 率 呢 ? R^] 
话说 ， 想 像 存在 一 个 伯 努 利 过 程 ， 一 个 有 偏差 的 投 币 ， 它 的 真实 正确 率 为 (但 是 未 知 
的 )。 在 入 次 试验 中 ,5 次 是 正确 的 : 这 样 观察 到 的 正确 率 是 /= S/N, BE, OMT 
解 真 实 的 正确 率 p 有 何 帮 助 ? 

这 个 问题 的 答案 通常 被 表达 为 一 个 置信 区 间 (confidence interval) ， 即 真实 正确 率 p 以 
某 个 特定 的 置信 度 存在 于 某 个 特定 的 区 间 中 。 例 如 ， 如 果 观 察 到 N 21000 次 试验 中 ， 有 
S =750 次 是 正确 的 ， 这 表明 真实 正确 率 在 7596 左右 。 但 到 底 有 多 接近 75%? XU EBEN 
80% ， 真 实 正确 率 p MIZE 73.296 ~76.7% 之 间 。 如 果 观 察 到 N= 100 次 试验 中 ， 存 在 $ =75 
次 是 正确 的 ， 这 也 表明 真实 正确 率 在 75% 左右 。 但 是 由 于 试验 次 数 较 少 ， 同 样 是 80% 的 
置信 和 度 ， 真 实 正确 率 p 的 区 间 则 较 宽 ， 扩展 为 69. 1% ~80. 1% 。 


RIF TER: 评估 学 习 结 时 107 











这 很 容易 定性 ， 但 如 何 来 给 它们 定量 呢 ? 推理 如 下 ， 正 确 率 为 的 单 次 伯 努 利 试 
验 的 平均 值 (mean) 和 方差 (variance) 分 别 为 PP 和 P(L-P)。 如 果 一 个 伯 努 利 过 程 中 
包含 N 次 试验 ， 那 么 期 望 的 正确 率 f= S/N 是 一 个 平均 值 同 样 为 p 的 随机 变量 ， 而 方差 
WAR RK p(1—-p)/N. N 值 较 大 时 ， 这 个 随机 变量 的 分 布 接近 于 正 态 分 布 。 这 些 都 是 统 
计 学 的 知识 ， 这 里 将 不 做 推导 。 

一 个 随机 变量 X， 平 均值 为 0， 落 入 某 个 宽度 为 2z 的 置信 区 间 的 概率 为 

Pr -zs X zz] =c 

对 于 正 态 分 布 ， 大 多 数 统计 学 课本 的 背后 都 有 *e 值 和 对 应 的 z 值 的 列表 。 但 是 这 种 
传统 列表 形式 (与 此 ) 略 有 不 同 : 它们 给 出 的 是 随机 变量 工 将 落 在 某 范 围 之 外 的 置信 
度 ， 而 且 只 给 出 上 半 个 区 间 的 值 : 





Pr[ X =z] 
这 称 为 单 尾 〈one-tailed) 概率 ， 因 它 只 涉及 整个 分 布 的 上 半 部 分 的 “尾巴 ”。 正 态 分 
布 是 对 称 的 ， 因 此 它 的 下 尾 概 率 

Pr[ X & - z] 
是 一 样 的 。 

表 5-1 给 出 一 个 示例 。 与 其 他 的 正 态 分 布 表 一 样 ， 这 里 也 假设 随机 变量 X 的 平均 值 
AO, 方差 为 1。 或 者 ， 也 可 以 说 z 是 距离 平均 值 (有 多 少 个 ) 标准 差 的 度量 。 因 此 ， 
Pr[ Xz2z] =5% 意味 着 工 落 在 高 于 平均 值 1. 65 个 标准 差 以 上 的 概率 是 5% 。 由 于 分 布 是 对 
称 的 ， 所 以 落 在 距离 平均 值 1.65 个 标准 差 以 外 (高 于 或 低 于 ) 的 概率 是 10% ,或 者 说 

Pr[ -1.65 <s X < 1.65] = 9096 


表 5-1 正 态 分 布 的 置信 界限 





Pr[ X=2] z Pr[ X2 z] z 
0. 1% 3. 09 10% 1. 28 
0.5% 2.58 20% 0. 84 

1% 2. 33 40% 0. 25 
5% 1.65 





现在 所 要 做 的 就 是 减 小 随机 变量 /， 使 它 的 平均 值 为 0， 并 将 方差 单位 化 。 为 此 我 们 减 
去 平均 值 p 并 除 以 标准 差 (p (1 -p) AN) 。 从 而 得 到 
Pr| -z < 





Pk <z] = 0 
vp(1 =- p)/N 

以 下 是 得 到 置信 边界 的 过 程 。 对 于 某 一 给 定 的 置信 度 值 c， 在 表 5-1 中 查 到 相应 的 = 
值 。 在 查 表 之 前 先 用 1 减 去 c， 再 将 结果 除 以 2。 对 于 c =90% ， 则 要 用 5% 在 表 中 查找 。 
可 以 用 线性 内 插 法 得 到 (两 个 给 出 的 置信 和 度 ) 中 间 的 置信 和 度 对 应 的 z 值 。 然 后 将 上 面 的 
不 等 式 写 成 等 式 ， 再 将 其 转换 为 p 的 表达 式 。 

最 后 一 步 涉 及 解 二 次 方程 。 虽 然 不 难 解 ， 但 得 出 的 却 是 一 个 看 似 钨 聊 的 置信 边界 表达 式 : 


» (ries E-E A0) 
表达 式 中 的 符号 tA p 值 ， 分 别 代表 置信 上 界 和 下 界 值 。 虽然 公 式 看 起 来 有 点 


复杂 ,但 在 实际 应 用 中 并 不 太 难 。 
该 结果 可 以 用 于 得 到 前 面 给 出 的 数值 型 例子 中 的 取 值 。 设置 /=75%，N =1 000, 











108 ”第 一 部 分 “数据 挖 握 简 介 








151 


152 





c=80% (因此 z=1. 28) 这 会 使 p 的 区 间 为 [0.732, 0.767]. WR N=100, MEA 
度 不 变 ， 则 p 的 区 间 为 [0. 691，0. 801 ] 。 注 意 ， 只 有 对 于 较 大 的 NN (Hin, N > 100) 
正太 分 布 的 假设 才 是 有 效 的 。 因 此 , /=75% ，N = 10 会 使 得 置信 区 间 为 [0.549, 
0.881], ， 但 是 这 个 结果 的 可 信 度 就 要 大 打折 扣 了 。 











5.3 交叉 验证 


现在 来 考虑 当 训练 和 测试 数据 数量 有 限时 该 如 何 处 理 。 旁 置 法 保留 一 定数 量 的 数据 用 
于 测试 ， 剩 余 的 数据 用 于 训练 〈 如 有 需要 可 再 留 一 部 分 数据 用 于 验证 ) 。 在 实践 中 ， 一 般 
保留 1Z3 的 数据 用 于 测试 ， 而 剩余 的 273 用 于 训练 。 

当然 ， 也 许 不 巧 : 用 于 训练 (或 测试 ) 的 样本 不 具 代 表 性 。 一 般 而 言 ， 你 无 法 说 一 个 
样本 具有 或 不 具有 代表 性 ， 但 有 个 简单 的 检测 方法 值得 一 试 。 每 个 类 在 整个 数据 集中 所 占 
的 比例 在 训练 集 和 测试 集中 也 应 体现 出 相应 的 比例 。 如 果 某 一 类 的 样本 不 巧 在 训练 集中 一 
个 也 没有 ， 很 难 想象 由 这 样 的 训练 集训 练 出 来 的 分 类 器 将 来 对 属于 这 一 类 的 样本 数据 进行 
分 类 时 会 有 好 的 表现 。 更 糟糕 的 是 ， 由 于 训练 集中 没有 属于 这 一 类 的 实例 ， 所 以 这 个 类 不 
可 避免 地 在 测试 集中 过 多 地 出 现 ! 因此 ， 在 随机 取样 时 必须 确保 在 训练 集 和 测试 集中 每 个 
类 各 自 应 有 的 比例 。 这 个 过 程 叫 分 层 (stratification), KAAS ZF H (stratified 
holdout) 。 虽 然 很 有 必要 进行 分 层 ， 但 分 层 只 能 为 防范 训练 集 和 测试 集 数据 的 样本 代表 性 
不 一 致 提供 一 个 基本 的 安全 措施 。 

一 个 减少 由 于 旁 置 法 取样 而 引起 的 任何 偏差 的 更 为 通用 的 方法 是 ， 重 复 整 个 过 程 。 用 
不 同 的 随机 样本 重复 进行 多 次 训练 和 测试 。 每 次 迭代 过 程 中 ， 随 机 抽取 一 个 特定 比例 (如 
2/3) 的 数据 进行 训练 ， 也 可 能 经 过 分 层 处 理 ， 剩 余 的 数据 用 于 测试 。 将 每 次 不 同 迭 代 过 
程 中 所 得 的 误差 率 进 行 平均 得 到 一 个 综合 误差 率 。 这 就 是 重复 旁 置 法 (repeated holdout 
method) 的 误差 率 估计 。 

你 也 许 会 考虑 在 单 次 旁 置 的 过 程 中 ， 交 换 训 练 集 和 测试 集 的 角色 ， 即 用 测试 集 数据 进 
行 训练 并 用 训练 集 数 据 进行 测试 ， 然 后 将 两 次 不 同 结果 平均 ， 以 此 来 减少 训练 集 和 测试 集 
数据 代表 性 不 一 致 所 产生 的 有 影响。 不幸 的 是 ， 只 有 当 训 练 集 和 测试 集 数量 比例 为 50: 50 
时 才 似 乎 真正 合理 ， 可 这 个 比例 通常 不 太 理想 ， 还 是 用 半数 以 上 的 数据 进行 训练 效果 比较 
好 ， 即 使 牺牲 了 测试 数据 。 然 而 ， 一 个 简单 的 变 体 方法 造就 了 一 个 重要 的 统计 学 技术 ， 即 
所 谓 的 交叉 验证 (eross-validation) 。 在 交叉 验证 中 ， 先 要 决定 一 个 固定 的 折 数 (number of 
folds), ， 或 者 说 数据 的 划分 。 假 设 定 为 3 折 ， 和 那么 数据 将 被 大 致 均 分 成 3 部 分 ， 每 部 分 轮 
流 用 于 测试 而 剩余 的 则 用 于 训练 。 也 就 是 说 ， 用 2/3 的 数据 进行 训练 ，1/3 的 数据 进行 测 
试 ， 重 复 此 过 程 3 次 ， 从 而 每 个 实例 恰好 有 一 次 是 用 于 测试 的 。 这 就 是 所 谓 的 3 折 交 又 验 
证 (threefold cross-validation) ， 若 同时 采用 了 分 层 技术 (经 常 如 此 )， 这 就 是 分 层 3 折 交 又 
验证 (stratified threefold cross- validation) 。 

给 定 一 个 数据 样本 ,预测 某 种 机 器 学 习 技术 误差 率 的 标准 方法 就 是 使 用 分 层 10 折 交 叉 
验证 。 数 据 被 随机 分 割 成 10 部 分 ， 每 部 分 中 的 类 比例 与 整个 数据 集中 的 类 比例 基本 一 致 。 
每 部 分 依次 轮流 被 旁 置 ， 其 余 9/10 的 数据 则 参与 某 一 个 学 习 算 法 的 训练 ， 而 旁 置 的 数据 集 
则 用 于 计算 误差 率 。 这 样 ， 学 习 过 程 共 进行 10 次 ， 每 次 使 用 不 同 的 训练 集 (不 同 的 训练 集 
之 间 含 有 许多 相同 数据 ) 。 最 后 ， 将 10 个 误差 率 估 计 值 平均 而 得 出 一 个 综合 误差 估计 。 
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为 什么 是 10 次 ?使 用 大 量 的 数据 集 ， 采用 不 同 的 学 习 技术 ,经 过 大 量 的 实验 表明 10 
折 正 是 获得 最 好 的 错误 估计 的 恰当 选择 ， 而 且 也 有 一 些 理论 根据 可 以 支持 这 一 点 。 虽 然 这 
个 论点 还 不 是 最 后 的 论断 ， 在 机 器 学 习 和 数据 挖掘 领域 有 关 什么 才 是 最 好 的 评估 方案 的 问 
题 至 今 还 持续 着 激烈 的 争辩 ,但 是 10 折 交 又 验证 法 在 实践 中 被 认为 是 标准 方法 。 实 验 还 
表明 采用 分 层 技术 能 使 结果 稍 有 改进 ， 因 此 当 数 据 集 数量 有 限时 ， 分 层 10 折 交 叉 验证 法 
被 当做 标准 评估 技术 。 值 得 注意 的 是 ， 无 论 是 在 分 层 还 是 进行 10 折 分 割 时 都 不 必 很 严格 ， 
只 要 能 将 数据 集 分 割 成 大 致 相等 的 10 部 分 ,每 部 分 中 各 类 的 比例 基本 恰当 就 可 以 了 。 田 
Sh, 10 折 也 并 非 有 特殊 效果 ，5 折 或 20 折 交 又 验证 似乎 也 相差 无 几 。 

为 了 得 到 可 靠 的 误差 估计 ， 单 次 的 10 折 交 叉 验 证 慌 怕 还 不 够 。 采 用 相同 的 学 习 方 法 ， 
在 相同 的 数据 集 上 进行 不 同 的 10 折 交 叉 验 证 ， 常 常会 得 到 不 同 的 结果 ， 这 是 由 于 在 选择 
确定 折 本 身 时 受到 随机 变化 的 影响 。 分 层 技术 可 减少 变化 ， 但 不 能 完全 消除 随机 变化 。 当 
需要 一 个 准确 的 误差 估计 时 ， 标 准 的 程序 是 重复 10 次 交叉 验证 一 一 即 10 次 10 折 交 叉 验 
证 ， 然 后 取 其 平均 值 。 这 将 使 原始 数据 中 9/10 的 数据 被 代入 学 习 算法 中 100 次 。 可 见 ， 
获得 好 的 测试 结果 是 一 项 计算 密集 型 的 任务 。 


5.4 其 他 评估 方法 


10 折 交 叉 验 证 是 衡量 将 某 学 习 方 法 应 用 在 某 数据 集 上 的 误差 率 的 标准 方法 ， 为 得 到 
可 靠 的 结果 ， 建 议 使 用 10 次 10 折 交 叉 验 证 。 除 此 之 外 ， 还 有 许多 其 他 可 行 的 方法 ， 其 中 
两 个 特别 普及 的 方法 就 是 留 一 (leave-one-out) 交叉 验证 和 自助 法 〈bootstrap ) 。 


5.4.1 留 一 交叉 验证 


留 一 交 义 验证 其 实 就 是 折 交 又 验 证 ， 其 中 是 数据 集 所 售 实 例 的 个 数 。 每 个 实例 依 
次 被 保留 在 外 ， 而 剩余 的 所 有 实例 则 用 于 学 习 算 法 的 训练 。 它 的 评估 就 是 看 对 那个 保留 在 
外 的 实例 分 类 的 正确 性 ，1 或 0 分别 代表 正确 或 错误 。 所 有 nn 个 评估 结果 (数据 集中 的 每 
个 成 员 各 产生 一 个 结果 ) 被 平均 ， 得 到 的 平均 值 就 是 最 终 的 误差 估计 。 

这 个 方法 有 两 个 吸引 人 的 地 方 。 第 一 ， 每 次 都 使 用 尽 可 能 多 的 数据 参与 训练 ， 从 而 可 
能 会 得 到 更 准确 的 分 类 器 。 第 二 ， 这 个 方法 具有 确定 性 : 无 需 随 机 取样 。 没 有 必要 重复 10 
次 或 任何 重复 操作 ， 因 为 每 次 的 结果 都 将 是 一 样 的 。 与 之 相对 的 ， 它 的 计算 成 本 也 是 相当 
高 的 ， 整 个 学 习 过 程 必须 执行 n 次 ， 这 对 一 些 大 的 数据 集 来 说 通常 是 不 可 行 的 。 不 过 ， 留 
一 法 似乎 提供 了 一 个 机 会 ， 即 最 大 限度 地 从 一 个 小 的 数据 集 里 获得 尽 可 能 正确 的 估计 。 

除了 计算 成 本 高 之 外 ， 留 一 交叉 验证 还 有 一 个 缺点 。 它 不 但 不 能 进行 分 层 ， 而 且 更 糟 
的 是 它 一 定 是 无 层 样本 。 分 层 使 测试 集中 各 类 有 恰当 的 比例 ， 而 当 测 试 集 中 只 含 一 个 实例 
时 ， 分 层 是 不 可 能 实现 的 。 举 个 例子 ， 虽 然 极 不 现实 ， 但 却 非常 戏剧 性 地 描述 了 由 此 而 引 
起 的 问题 。 想 象 有 一 个 完全 随机 的 数据 集 ， 含 有 数量 相等 的 两 个 类 。 面 对 一 个 随机 数据 ， 
所 能 给 出 的 最 好 预测 就 是 预测 它 属于 多 数 类 ， 其 真实 的 误差 率 是 50% 。 但 在 留 一 法 的 每 一 
个 折 里 ， 与 测试 实例 相反 的 类 (在 训练 集 上 ) 是 多 数 类 ， 因 此 每 次 预测 总 是 错 的 ， 从 而 导 
致 估计 误差 率 达 100% ! 


5.4.2 自助 法 
第 二 种 要 描述 的 估计 方法 是 自助 法 ， 它 基于 统计 学 的 放 回 抽样 (sampling with replace- 
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ment) 过 程 。 之 前 的 方法 ， 一 个 样本 一 旦 从 数据 集中 被 取出 放 入 训练 集 或 测试 集 ， 它 就 不 再 
被 放 回 。 也 就 是 说 ， 一 个 实例 一 旦 被 选择 一 次 ， 就 不 能 再 次 被 选择 。 这 就 像 足 足球 组 队 ， 不 
能 选 同一 个 人 两 次 。 但 是 数据 集 实例 不 是 人 ， 大 多 数 的 学 习 方法 还 是 可 以 使 用 相同 实例 两 
次 ， 并 且 在 训练 集中 出 现 两 次 会 产生 与 只 在 训练 集中 出 现 一 次 不 同 的 学 习 结 果 (数学 家 将 注 
意 到 ， 如 果 同 一 个 对 象 可 以 出 现 一 次 以 上 ， 那 么 我 们 谈论 的 就 不 是 真正 意义 的 “集合 ” ) 。 

自助 法 的 想法 是 采取 放 回 抽样 数据 集 的 方法 来 形成 训练 集 。 我 们 将 阐述 一 个 特例 ， 它 
非常 神奇 (原因 很 快 会 给 出 )， 称 为 0.632 自助 法 (0.632 bootstrap)。 一 个 拥有 个 实例 
的 数据 集 进行 了 n 次 放 回 抽样 ， 从 而 形成 了 另 一 个 拥有 个 实例 的 数据 集 。 因 为 在 第 二 个 
数据 集中 会 (几乎 肯定 会 ) 有 一 些 重复 实例 ， 所 以 在 原始 的 数据 集中 必 有 部 分 实例 未 被 抽 
样 一 一 我 们 将 用 这 些 实例 作为 测试 实例 。 


某 个 具体 实例 不 被 抽样 到 训练 集中 的 概率 是 多 少 呢 ? 每 次 被 抽取 的 概率 是 1/n， 所 
以 不 被 抽取 的 概率 是 1 -1/n。 根 据 抽 取 次 数 (n 次 )， 将 这 些 概 率 相 乘 ， 得 到 
(1- +)" ~e” =0.368 
其 中 e 是 自然 对 数 的 底数 2.7183 (不 是 误差 率 )。 这 给 出 了 某 个 具体 实例 不 被 抽取 到 
的 概率 。 因 此 ， 对 一 个 相当 大 的 数据 集 来 说 ， 测 试 集 将 包含 约 36.8% 的 实例 ， 而 训练 
集 将 包含 约 63. 296 的 实例 (现在 你 应 该 了 解 了 0. 632 自助 法 的 由 来 ) 。 训 练 集中 包含 
一 部 分 重复 实例 ， 总 容量 是 n， 与 原始 数据 集 一 样 大 。 


用 此 训练 集训 练 一 个 学 习 系 统 ， 并 在 测试 集 上 计算 误差 率 ， 得 到 的 将 是 一 个 对 真实 误 
差 率 较为 悲观 的 估计 值 。 这 是 因为 虽然 训练 集 的 容量 是 n, 但 它 只 包含 了 63% 的 实例 ， 这 
要 比 10 折 交 又 验 证 法 所 使 用 的 90% 实 例 小 一 些 。 为 了 补偿 这 点 ,将 测试 集 误差 率 和 用 训 
练 集 数据 计算 的 再 带 入 误差 率 组 合 在 一 起 。 如 前 所 述 ， 再 代 人 误差 率 是 对 真实 误差 率 的 一 
个 过 于 乐观 的 估计 值 ， 当 然 不 能 单独 使 用 。 自 助 法 将 它 和 测试 误差 率 组 合 在 一 起 ， 给 出 最 
终 误差 率 估计 值 e: 














e = 0.632 X e 测 试 实例 十 0.368 X Cry om 

然后 ， 将 整个 自助 过 程 重复 进行 多 次 ， 以 取得 不 同 的 放 回 取样 训练 集 ， 测 试 结果 取 平 
均值 。 

自助 法 对 非常 小 的 数据 集 来 说 ， 也 许 是 最 佳 的 误差 率 估计 法 。 但 是 ， 就 像 留 一 交叉 验 
证 法 一 样 ， 自 助 法 也 有 缺点 ， 可 以 通过 考虑 一 个 非常 特殊 的 、 人 为 假设 的 情况 来 描述 此 问 
题 。 实 际 上 ， 我 们 考虑 一 个 包含 同样 大 小 的 两 类 而 且 是 完全 随机 的 数据 集 。 对 任何 预测 规 
则 来 说 ， 它 的 真实 误差 率 都 是 50% 。 但 一 个 能 记 住 整个 训练 集 的 学 习 方法 ， 会 给 出 完美 的 
100% 的 再 代入 评分 ， 以 致 eyigsm =O, 0.632 自助 法 再 将 它 与 权 值 0. 368 相 乘 ， 得 出 综合 
误差 率 为 31. 6% (0. 632 x 5096 +0. 368 x0% ) ， 这 个 结论 未 免 过 于 乐观 了 。 


5.5 数据 挖掘 方法 比较 


经 常 需要 对 解决 同一 问题 的 两 种 不 同学 习 方法 进行 比较 ， 看 哪 一 种 更 适合 使 用 。 这 看 
来 似乎 很 简单 ， 用 交叉 验证 法 (或 其 他 合适 的 估计 方法 )， 也 许 重复 多 次 ， 然 后 选择 估计 
误差 率 较 小 的 方法 。 在 许多 实际 应 用 中 ， 这 已 是 相当 足够 了 ， 如 果 某 方法 在 某 一 具体 数据 
集 上 的 估计 误差 率 比 男 一 方法 低 ， 那 么 最 好 采用 前 者 的 模型 。 但 是 ， 有 时 差别 只 是 源 于 人 
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计 错 误 ， 在 某 些 情况 下 ， 重 要 的 是 我 们 要 确定 一 个 学 习 方 法 对 某 个 具体 问题 的 解决 是 否 真 
的 优 于 另 一 个 方法 。 这 是 对 机 器 学 习 研 究 者 的 一 个 挑战 。 如 果 要 提出 一 个 新 的 学 习 算法 ， 
它 的 提出 者 必须 证 明 新 算法 与 目前 最 好 的 算法 相 比 对 问题 的 解决 是 有 改进 的 ， 而 且 还 要 证 
明 观 察 到 的 改进 不 只 是 估计 过 程 中 所 产生 的 偶然 结果 。 

这 是 一 项 给 出 置信 边界 的 统计 检验 工作 ， 正 如 我 们 先前 谈 到 的 ， 根 据 已 给 出 的 测试 集 
误差 率 来 预测 其 真实 性 能 。 假 设 有 无 限 的 数据 来 源 ， 则 可 以 用 大 量 的 数据 进行 训练 ， 然 后 
再 用 另 一 个 大 型 的 独立 测试 数据 集 进行 性 能 评估 ， 像 先前 一 样 得 到 置信 边界 。 但 是 ， 如 果 
差别 很 显著 ， 必 须 确定 其 原由 不 是 因 碰 巧 使 用 某 个 具体 数据 集 进行 测试 而 引起 的 。 我 们 要 
决定 一 个 方法 从 整体 上 来 看 比 另 一 个 好 还 是 差 ， 这 要 涵盖 能 从 这 个 领域 得 到 的 所 有 训练 集 
和 测试 集 数 据 。 训 练 集 数据 的 大 小 自然 会 影响 性 能 ， 因 此 所 有 的 数据 集 大 小 要 一 致 : 实际 
上 ， 也 可 用 不 同 大 小 的 数据 集 进行 重复 实验 以 得 到 一 条 学 习 曲 线 。 

此 刻 ， 假 定数 据 来 源 是 无 限 的 。 为 明确 起 见 ， 假 设 用 交叉 验证 法 来 进行 误差 估计 (其 
他 估计 法 ， 如 重复 交叉 验证 ， 也 是 同样 可 行 的 ) 。 可 以 提取 几 个 一 样 大 小 的 数据 集 ， 对 每 
个 学 习 方法 在 每 个 数据 集 上 用 交叉 验证 法 得 到 一 个 正确 率 估计 ， 然 后 计算 出 正确 率 估计 的 
平均 值 。 每 个 交叉 验证 实验 产生 一 个 不 同 的 、 独 立 的 误差 估计 ， 而 我 们 感 兴趣 的 是 这 个 洱 
盖 所 有 可 能 的 相同 规模 数据 集 的 平均 正确 率 ， 以 及 这 个 平均 值 是 否 在 使 用 某 一 方法 时 较 大 
一 些 。 

从 这 个 角度 看 ， 我 们 正在 试图 判断 一 组 样本 的 平均 值 是 否 显著 高 于 或 低 于 另 一 组 样本 
的 平均 值 ， 这 里 的 样本 是 指 对 于 从 某 个 领域 抽取 的 不 同 数据 集 进行 交叉 验证 所 得 到 的 估计 
值 。 这 是 一 项 统计 学 工作 ， 称 为 ;检验 (t-test) MFA tA (Students t-test), AFA 
以 在 两 个 学 习 方 法 上 使 用 同样 的 交叉 验证 测试 ， 使 得 在 每 个 数据 集 上 的 实验 都 能 获得 配对 
的 结果 ， 因 此 可 以 使 用 1 检验 的 一 种 更 为 敏感 的 形式 ， 假 设 配 对 1 检验 (paired t-test); 

现在 需要 定义 一 些 符 号 。 有 一 组 样本 x,，x,，…，x， 是 使 用 某 种 学 习 方 法 进行 连 
续 的 10 折 交 叉 验 证 而 得 到 的 。 第 二 组 样本 y, ，y,，…，y， 是 使 用 另 一 种 学 习 方法 进 
行 连续 的 10 折 交 叉 验证 而 得 到 的 。 每 个 交叉 验证 估计 使 用 不 同 的 数据 集 (但 所 有 的 数 
据 集 大 小 相同 ， 且 来 源 于 同一 领域 ) 而 产生 的 。 如 果 完 全 相同 的 交叉 验证 的 数据 集 划 
分 用 于 两 个 学 习 方法 ， 将 会 得 到 最 好 的 结果 。 因 此 ，x, Aly, 是 在 使 用 相同 的 交叉 验证 
分 割 条 件 下 而 得 到 的 ，x， Ay 也 是 如 此 ， 依 此 类 推 。 第 一 组 样本 的 平均 值 用 x 来 表 
示 ， 第 二 组 用 来 了 表示 。 我 们 要 试图 判定 过 和 了 是 否 有 显著 的 差别 。 

如 果 样 本 足够 ， 无 论 样本 本 身 的 分 布 如 何 ， 独 立 样本 (x, ，x,，…，x,) 的 平均 值 
(x) 应 呈正 态 〈 即 高 斯 ) 分 布 ， 假 设 真 实 的 平均 值 为 w。 如 果 知 道 该 正 态 分 布 的 方差， 
那么 可 将 其 零 均值 化 并 将 方差 单位 化 ， 给 出 样本 平均 值 (x) 就 能 得 到 4 的 置信 界限 。 
可 是 ,方差 是 未 知 的 ， 唯 一 的 办 法 就 是 从 样本 集中 将 其 估计 出 来 。 

这 并 不 难 ,x 的 方差 估计 可 以 将 由 样本 x; ，x,，…，xi 计算 而 来 的 方差 ( 称 为 o2) 
除 以 而 得 到 。 可 用 下 列 公式 将 x 的 分 布 零 均值 化 并 将 方差 单位 化 

x 
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但 是 我 们 不 得 不 估计 方差 这 个 事实 ， 多 少 使 结果 有 点 变化 。 因 为 方差 只 是 估计 值 ， 
所 以 这 不 能 算是 正 态 分 布 (虽然 当 〖 值 足够 大 时 呈现 出 正 态 分 布 )。 它 是 一 种 叫做 自由 
FEAk-1 的 学 生 分 布 (Student's distribution with k — 1 degrees of freedom)。 在 实践 中 ， 
这 意味 着 要 使 用 学 生 分 布 的 置信 区 间 表 来 代替 原先 的 正 态 分 布置 信 区 间 表 。 表 5-2 列 
出 了 自由 度 为 9 时 (这 是 使 用 10 次 交叉 验证 法 取 平 均值 所 应 当 用 的 正确 自由 度 ) 的 置 
信和 界限 。 如 果 将 它 与 表 5-1 比较 ， 你 会 发 现 学 生 分 布 稍 许 保 守 一 点 。 对 于 一 个 给 定 的 
置信 和 度 ， 学 生 分 布 区 间 稍 宽 ， 这 正 反 映 了 不 得 不 进行 方差 估计 所 带 来 的 不 确定 性 因素 。 
不 同 的 自由 度 有 不 同 的 列表 。 如 果 自 由 度 超过 100, ， 学 生 分 布 与 正 态 分 布 的 置信 界限 非 
常 接近 。 与 表 5-1 一 样 ， 表 5-2 中 的 数值 也 是 “ 单 边 ” 置 信 区 间 。 

表 5-2 自由 度 为 9 的 学 生 分 布置 信 界 限 

Pr[ X>z] 

596 1. 83 


10% 1. 38 
20% 


Pr[ X>z] 
0.1% 4.30 
0.5% 3,29 

1% 





















要 判断 平均 值 x 和 7 (都 是 上 个 样本 的 平均 值 ) 是 否 相等 ， 我 们 来 考虑 每 组 对 应 的 
观察 点 之 间 的 差 值 d;，d; -x, -y;。 这 样 考虑 是 合理 的 ， 因 为 这 些 观察 点 都 是 成 对 的 。 
这 些 差 值 的 平均 值 正 是 两 个 平均 值 (x* Aly) 之 间 的 差 d =x-y。 和 平均 值 本 身 一 样 ， 
平均 值 差 值 也 是 一 1 自由 度 的 学 生 分 布 。 如 果 平 均值 相等 ， 则 差 值 为 0 ( 称 为 零 假 设 
(null hypothesis) ) ; 如 果 有 显著 差异 ， 则 差 值 将 与 0 有 着 显著 差距 。 因 此 ， 对 一 个 给 定 
WHE, 我们 要 检查 其 真实 差 值 是 否 超过 置信 和 界限。 

首先 要 将 差 值 零 均值 化 ， 将 方差 单位 化 ， 得 到 的 变量 被 为 1 统计 量 (t-statistic) ; 

d 

g^ 
这 里 o? 是 样本 差 值 的 方差 。 然 后 确定 置信 和 度 ， 在 实践 中 ,通常 使 用 1% RSS. WR k 
是 10， 置 信 界 限 z 就 可 从 表 5-2 中 得 到 ; 若 不 是 10， 应 采用 与 大 对 应 的 学 生 分 布置 信 
界限 表 。 用 双 尾 检验 (two-tailed test) 比较 合适 ， 因 为 我 们 不 知道 x 的 平均 值 是 否 可 能 
KF y 的 平均 值 ， 或 者 相反 。 因 此 ， 对 于 1% 的 检验 ， 我们 采用 表 5-2 中 0.5% 所 对 应 
的 值 。 如 果 根 据 上 面 公 式 得 到 的 上 值 大 于 z 或 小 于 -z， 就 拒绝 平均 值 相等 的 零 假 设 ， 
而 认为 这 两 个 学 习 方 法 针对 这 个 领域 、 这 样 的 数据 集 容 量 ， 确 实 存 在 明显 差别 。 

关于 这 个 过 程 ， 有 两 个 观察 得 一 提 。 第 一 个 是 技术 上 的 : 如 果 观 察 点 不 是 配对 的 怎 
么 办 ? 换 名 话说， 如 果 由 于 某 种 原因 ， 无 法 让 每 个 学 习 方 法 在 同样 的 数据 集 上 进行 误差 
评估 怎么 办 ? 如 果 每 个 方法 使 用 的 数据 集 个 数 不 同 怎么 办 ? 这 些 情 况 发 生 在 当 某 人 已 经 
对 一 个 方法 进行 了 评估 ， 并 公布 了 针对 某 个 具体 领域 、 某 个 具体 数据 集 容 量 的 几 种 不 同 
的 估计 (或 者 只 是 它们 的 平均 值 和 方差 ) ， 而 我 们 想 要 将 其 与 其 他 不 同 的 方法 进行 比较 
时 。 这 时 就 有 必要 使 用 常规 的 不 配对 的 上 检验。 如 果 如 我 们 所 假设 的 ， 平 均值 是 正 态 分 布 
的 ， 那么 平均 值 的 差 值 也 是 正 态 分 布 的 。 我 们 计算 平均 值 的 差 值 * -7 来 代替 计算 差 值 的 
平均 值 4。 当 然 这 是 一 码 事 ， 差 值 的 平均 值 等 于 平均 值 的 差 值 ,但 是 差 值 的 方差 却 不 同 。 
如 果 样 本 x, ，x,，…，xi 的 方差 是 0;, BPAY, vss, cos, y WHE, DJ 





t= 


= 
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是 一 个 很 好 的 对 平均 值 差 值 的 方差 估计 。 这 个 方差 (更 准确 地 说 ， 是 它 的 平方 根 ) 应 
当 作 为 上 述 i 统计 量 计算 公式 中 的 分 母 。 查 询 学 生 分 布置 信和 界限 表 所 必需 的 自由 度 应 
保守 地 选择 两 个 样本 中 小 的 一 个 。 从 本 质 上 看 ， 知 道观 察 点 是 成 对 的 ， 就 能 使 用 更 好 
的 方法 估计 方差 ， 产 生 一 个 更 为 严格 的 置信 边界 。 

第 二 点 观察 涉及 我 们 所 做 的 假设 ， 即 数据 来 源 是 无 限 的 ， 可 以 使 用 几 个 恰当 容量 的 独 
立 数据 集 。 而 在 实践 中 ， 经 常 只 有 一 个 容量 有 限 的 数据 集 可 用 。 该 怎么 办 ? 可 将 整个 数据 
集 分 割 成 多 个 〈 也 许 10 个 ) 子 集 ， 对 每 个 子 集 分 别 进行 交叉 验证 。 但 是 ， 验 证 的 综合 结果 
只 能 说 明 一 个 学 习 方法 是 否 适合 于 这 个 具体 容量 的 数据 集 ， 也 许 是 原始 数据 集 的 1/10, sy 
者 ， 重 复 利用 原始 数据 集 ， 比 如 在 每 次 交叉 验证 时 对 数据 集 进 行 不 同 的 随机 化 。 然 而 ， 这 
样 得 出 的 交叉 验证 估计 不 是 独立 的 ， 因 为 它们 不 是 从 独立 的 数据 集 上 得 来 的 。 在 实践 中 ， 
这 意味 着 被 判定 为 有 明显 差异 的 情形 实际 却 未 必 。 实 际 上 ， 增 加 样本 的 数目 上 〈 即 交叉 验证 
的 次 数 ) ， 最 终 将 导致 产生 明显 差异 ， 因 为 上 统计 量 的 值 在 毫 无 限制 地 增加 。 

围绕 这 个 问题 ， 已 经 提出 了 多 种 对 于 标准 上 测试 的 改进 方法 ， 但 这 些 都 只 是 直观 
推断 ， 缺 乏 理论 依据 。 其 中 有 一 种 方法 在 实践 应 用 中 似乎 不 错 ， 称 为 纠正 重复 取样 
检验 (corrected resampled t-test) 。 假 设 使 用 重复 旁 置 法 来 代替 交叉 验证 法 ， 将 数据 集 
进行 不 同 的 随机 分 割 磊 次， 获得 对 两 种 不 同学 习 方 法 的 正确 率 估 计 。 每 次 用 个 实例 
WAR, Fn, 个 实例 测试 ， 差 值 d; 则 根据 在 测试 数据 上 的 性 能 计算 而 来 。 纠 正 重 复 取样 
t 检验 使 用 经 修改 的 统计 量 

d 
(Ft) 

和 标准 的 上 统计 量 计算 方式 几乎 一 致 。 再 仔细 看 看 这 个 公式 ， 现 在 上 值 不 再 容易 随 着 
值 的 增加 而 增加 了 。 在 重复 交叉 验证 中 也 可 以 使 用 这 样 的 修改 统计 量 ， 其 实 这 只 是 重 
复 旁 置 法 的 一 个 特例 ， 每 个 交叉 验证 所 使 用 的 测试 集 是 不 重 毒 的 。 对 于 重复 10 次 的 10 
折 交 叉 验 证 , k —100, n/n, =0.1/0.9, a 则 基于 100 个 差 值 。 














5.6 预测 概率 


本 章 我 们 假设 目的 是 要 获得 最 大 的 预测 正确 率 。 如 果 对 测试 实例 的 预测 值 与 实际 值 一 
致 ， 预 测 结果 视 为 正确 ; 如 果 不 一 致 ， 则 视 为 不 正确 。 不 是 黑色 就 是 白色 ， 不 是 正确 就 是 
不 正确 ， 不 存在 灰色 。 许 多 情况 下 ， 这 是 最 妥当 的 观点 。 如 果 一 个 学 习 方 法 被 真正 采用 ， 
导致 一 个 不 是 正确 就 是 错误 的 预测 ， 正 确 与 否 就 是 一 个 合适 的 量度 。 有 时 称 为 0 -1 损失 
函数 (0-1 loss function), ， 如 果 预 测 正确 , “损失 ”为 0; 不 正确 , H1, HA (loss) 是 
一 个 习惯 用 语 ， 而 使 用 收益 来 表示 结果 则 是 一 个 更 为 乐观 的 术语 。 

其 他 情况 属于 模糊 边界 。 大 多 数 的 学 习 方 法 能 将 预测 和 概率 结合 在 一 起 ( 如 朴素 贝 
叶 斯 方法 ) 。 在 判定 正确 性 时 ， 考 虑 它 的 概率 是 很 自然 的 。 例 如 ， 一 个 概率 为 99% 的 正 
确 预 测 多 半 会 比 一 个 概率 为 51% 的 正确 预测 分 量 更 重 一 些 。 如 在 一 个 二 类 情况 下 ， 
51% 的 正确 预测 并 不 比 概率 为 51% 的 不 正确 预测 好 多 少 。 是 否 要 考虑 预测 的 概率 ， 要 
看 具体 应 用 。 如 果 最 终 的 应 用 只 是 要 一 个 预测 结果 ， 并 且 对 预测 值 可 能 性 的 现实 评估 也 
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不 会 有 任何 好 处 ， 那 么 使 用 概率 似乎 不 妥 。 如 果 预 测 值 还 要 进一步 处 理 ， 也 许 还 要 涉及 
人 为 的 评估 或 者 成 本 分 析 ， 甚 至 或 许 要 作为 第 二 阶段 学 习 过 程 的 输入 ， 那 么 进行 概率 考 
虑 也 许 是 很 合适 的 。 


5.6.1 二 次 损失 函数 


假设 一 个 单独 的 实例 有 并 种 可 能 的 结果 ， 或 者 说 下 种 可 能 的 类 。 对 某 个 给 定 的 实例 ， 
学 习 方 案 对 这 些 类 计算 出 一 组 概率 向 量 pa, po. ce. p, 〈 这 些 概率 的 和 为 1) 。 这 个 实例 的 
真实 结果 是 这 些 可 能 的 类 中 的 某 一 个 。 然 而 ， 更 方便 的 方法 是 将 其 表示 为 一 个 向 量 a, 
a,，…，Qa;， 其 中 第 i 个 元 素 (i 就 是 真实 的 类 ) 等 于 1， 其 他 都 等 于 0。 这 样 我 们 可 以 将 
损失 表示 为 一 个 依赖 于 向 量 p 和 向 量 a 的 损失 函数 。 
一 个 常用 于 评估 概率 预测 的 标准 就 是 二 次 损失 函数 (quadratic loss function) ; 
by (pj B aj)’ 
注意 这 只 是 针对 单个 实例 ， 这 里 的 总 和 是 所 有 可 能 的 输出 的 总 和 ， 而 非 不 同 的 实例 的 总 
和 。 其 中 只 有 一 个 a 值 等 于 1， 其 余 的 a 值 都 为 0。 因 此 ， 总 和 里 包括 由 不 正确 预测 而 得 
到 的 py 和 由 正确 预测 而 得 的 〈1 -p;)*， 从 而 公式 可 以 转换 为 
1 -2p, + Sp; 
这 里 i 是 正确 的 类 。 当 测试 集 有 多 个 实例 时 ,损失 函数 就 是 所 有 的 单个 实例 损失 函数 的 
总 和 。 





这 里 存在 一 个 有 趣 的 理论 事实 ， 当 真实 的 类 是 按 一 定 概率 产生 时 ， 如 果 要 使 二 次 
损失 函数 值 最 小 化 ， 最 好 的 策略 就 是 让 向 量 己 选择 各 类 的 真实 概率 ， 即 p, = Pr[ class = 
i] 。 如 果真 实 概率 已 知 ， 它 就 是 p 的 最 佳 选 择 。 如 果 不 知 道 ， 寻 求 最 小 二 次 损失 值 的 
系统 则 要 力争 得 到 对 Pr[ class =i] 的 最 好 估计 并 将 其 作为 p; 的 值 。 

这 点 相当 容易 证 明 。 真 实 概率 表示 为 pi’ pr, cc. pe, Wp; -Pr[clas =i]。 对 
一 个 测试 实例 的 二 次 损失 函数 的 期 望 值 可 以 重新 表达 如 下 : 

E| X G;- 5] = X Go -2Elpa;] + Ela?) = X Gi -2pp; +p) 

= > ( (P; - pj x * p; (1 -p; )) 
第 一 步 将 期 望 符号 放 到 求 和 符号 里 并 将 平方 展开 。 第 二 步 p; 是 一 个 常数 ，a; 的 期 望 值 
就 是 p; , 并 且 因 为 a; 不 是 0 就 是 1 , 所 以 a; -0, 期 望 值 也 等 于 [M o 第 三 步 直 接 进 
行 代 数 运算 。 要 使 总 和 最 小 ， 很 明显 就 是 使 p; =p; ， 这 样 平方 项 消失 ， 剩 下 的 只 有 控 
制 实际 类 的 真实 分 布 的 方差 。 

误差 平方 最 小 化 在 预测 问题 上 已 有 很 长 的 一 段 历史 ， 二 次 损失 函数 促使 预测 器 选择 最 
好 的 概率 估计 ， 或 者 优先 选择 能 对 真实 概率 做 出 最 好 猜测 的 预测 器 。 另 外 ， 二 次 损失 函数 
有 一 些 有 用 的 理论 性 质 ， 不 在 这 里 讨论 。 由 于 上 述 种 种 原因 ， 二 次 损失 函数 常 当 做 评估 概 
率 预 测 正确 的 标准 。 
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5.6.2 信息 损失 函数 
另 一 个 较为 普遍 的 评估 概率 预测 的 标准 就 是 信息 损失 函数 (informational loss func- 


tion) : 
- log); 

其 中 ， 第 i 个 预测 是 正确 预测 。 实 际 上 ,这 相当 于 一 个 负 的 对 数 似 然 函数 (log- likelihood 
function) ， 是 经 Logistic 回归 优化 的 函数 ， 曾 在 4.6 节 中 讲述 过 。 它 用 位 数 来 代表 所 需 的 信 
息 量 ， 这 个 信息 量 用 来 表示 实际 类 i 的 概率 分 布 p,，p,，…，pi。 换 句 话 说 ， 如 果 给 定 一 
个 概率 分 布 ， 某 人 必须 同 你 交流 实际 出 现 的 应 属 哪 一 类 ， 这 就 是 对 信息 进行 尽 可 能 最 有 效 
的 编码 所 需要 的 位 数 。( 当然 可 能 总 是 会 需要 更 多 的 位 数 ) 。 因 为 概率 总 是 小 于 1， 所 以 它 
们 的 对 数 是 负数 ， 公 式 中 的 减 号 使 结果 成 为 正 数 。 例 如 ， 一 个 二 类 问题 ， 即 正面 或 者 反 
面 ， 每 个 类 的 概率 是 相等 的 ， 出 现 正 面 则 需要 1 位 来 传输 ， 因 为 -log,(1/2) 等 于 1。 


如 果真 实 概率 是 p, ，p,。 ，…，pk， 信 息 损失 函数 的 期 望 值 就 是 





= Py log;p, - p; log,p, — … — py logjp, 
iud Ce Ve nd 
— pi log,p; — pz logzpz — +++ — py logyp, 


这 样 ， 信 息 损失 函数 能 使 知道 真实 概率 的 预测 器 做 出 真实 的 预测 ， 并 促使 不 知 真 实 概 
率 的 预测 器 做 出 最 好 的 猜测 。 


信息 损失 函数 的 一 个 问题 是 ， 如 果 赋 予 一 个 0 概率 给 实际 发 生 的 事件 ， 函 数值 就 成 负 
无 穷 大 。 好 像 在 赌博 中 连 衬 衣 都 输 了 。 谨 慎 的 基于 信息 损失 函数 的 预测 器 从 不 赋予 任何 结 
果 以 0 概率 。 当 没有 任何 信息 可 以 提供 给 这 个 结果 作为 预测 基础 时 ， 就 导致 了 一 个 问题 ， 
称 为 零 概率 问题 (zero-frequency problem) ， 人 们 提出 了 不 同 的 解决 方案 ， 如 在 (4.2 45) 
朴素 贝 叶 斯 中 讨论 过 的 拉 普 拉 斯 估计 。 


5. 6.3 讨论 











如 果 你 从 事 概 率 预 测 的 评估 工作 ， 你 将 使 用 两 种 损失 函数 中 的 哪 一 种 呢 ? 这 是 个 好 问 
题 ， 没 有 一 致 的 答案 ， 这 其 实 是 个 人 喜好 问题 。 它 们 都 在 做 损失 函数 所 期 待 的 基本 工作 : 
最 大 限度 地 使 预测 器 正确 地 预测 真实 概率 。 但 是 它们 之 间 存 在 一 些 客观 的 区 别 ， 这 有 助 于 
你 做 出 自己 的 选择 。 

二 次 损失 函数 不 仅 考 虑 了 实际 发 生 事件 的 概率 ， 同 时 还 考虑 其 他 事件 的 概率 。 比 如 ， 
一 个 四 类 的 问题 ， 假 设 将 40% 的 概率 赋予 实际 遇 到 的 类 ， 而 将 剩余 的 分 配给 其 余 的 三 
类 。 先 前 的 二 次 损失 函数 表达 式 中 出 现 的 p 的 总 和 ， 使 得 如 何 分 配 剩 余 的 概率 将 决定 二 
次 函数 损失 值 。 如 果 将 剩余 的 60% 均匀 分 配给 另外 三 个 类 ， 那 么 达到 的 损失 是 最 小 的 。 不 
均匀 的 分 配 将 使 平方 和 增加 。 男 一 方面 ， 信 息 损 失 函 数 只 依赖 于 对 实际 发 生 的 事件 所 赋予 
的 概率 。 如 果 你 对 某 个 即将 发 生 的 事件 下 了 赌注 ， 而 且 押 对 了 ， 谁 还 在 乎 你 其 余 的 钱 在 其 
他 事件 上 是 如 何 分 配 的 ? 

如 果 你 对 某 一 实际 发 生 的 事件 赋予 了 很 小 的 概率 ， 那 么 信息 损失 函数 会 给 你 很 大 的 惩 
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罚 。 最 大 的 惩罚 是 对 0 概率 ， 是 无 穷 的 。 而 二 次 损失 函数 属于 比较 温和 的 ， 限 定 在 
l + Èr 
绝对 不 会 超出 2。 
最 后 ， 信 息 损 失 函 数 的 支持 者 提出 一 种 对 学 习性 能 评估 的 一 般 理论 ， 称 为 最 小 描述 长 
度 (Minimum Description Length，MDL) 原理 。 他 们 主张 一 种 方案 所 学 习 的 结构 大 小 可 以 
用 信息 的 位 数 来 衡量 ， 如 果 损 失 值 也 用 相同 的 单位 来 衡量 ， 那 么 二 者 可 以 有 效 地 结合 在 一 
起 。 我 们 将 在 5.9 节 中 讨论 。 


5.7 计算 成 本 


到 目前 为 止 ， 所 讨论 的 评估 方法 都 没有 考虑 到 错误 决策 、 错 误 分 类 的 成 本 问题 。 不 考 
虑 错误 成 本 的 情况 下 ， 最 大 化 分 类 正确 率 经 常会 导致 奇怪 的 结果 。 有 一 个 例子 ， 机 器 学 习 
曾 用 于 判断 奶牛 场 里 的 每 一 头 母 牛 的 确切 发 情 期 。 用 电子 耳 签 来 标识 母 牛 ， 并 使 用 各 种 不 
同 的 特征 ， 如 产 奶 量 及 化 学 成 分 〈 由 高 科技 的 挤 奶 机 器 自动 记录 ) 、 挤 奶 次 序 ( 母 牛 是 有 
秩序 的 动物 ， 通 常 是 按 相 同 的 次 序 进 挤 奶 棚 的 ， 除 非 是 处 于 类 似 发 情 期 这 类 非 正 常 的 情 
况 ) 。 在 现代 化 的 牧场 管理 中 ， 事 先知 道 母 牛 何 时 做 好 准备 也 很 重要 : 动物 的 人 工 受精 错 
过 一 个 周期 即 导 致 不 必要 的 延期 产 仔 ， 并 会 导致 以 后 出 现 并 发 症 。 在 早期 试验 中 ， 机 器 学 
习 方 案 总 是 顽固 地 预测 母 牛 始终 没有 处 在 发 情 期 。 与 人 类 一 样 ， 母 牛 也 有 大 约 30 天 左右 
的 生理 周期 ， 因 此 这 个 “ 零 ” 规 则 在 约 97% 的 时 候 都 是 正确 的 ， 这 个 正确 率 在 任何 农业 
领域 都 是 令 人 难忘 的 ! 但 是 ， 我 们 所 需要 的 当然 是 “处 于 发 情 期 ”的 预测 准确 率 高 于 
“不 在 发 情 期 ”的 准确 率 的 分 类 规则 : 这 两 种 误差 的 代价 是 不 同 的 。 使 用 分 类 准确 率 进行 
评估 默认 的 假设 是 错误 成 本 相同 。 

其 他 反映 不 同 错误 成 本 的 例子 包括 贷款 决策 : 贷款 给 违规 者 的 代价 远 高 于 由 于 拒绝 
贷款 给 不 违规 者 而 造成 生意 损失 的 代价 。 在 海面 浮 油 探测 中 ， 未 能 探测 出 威胁 环境 的 海 
面 浮 油 的 错误 成 本 远 高 于 错误 报警 的 代价 。 在 负荷 预测 中 ， 为 防范 一 场 实际 未 发 生 的 暴 
风 雪 而 调整 发 电机 组 所 产生 的 成 本 和 远 低 于 由 于 对 暴风 雪 的 袭击 毫 无 防范 所 造成 的 损失 。 
在 诊断 问题 中 ， 实 际 上 没有 问题 的 机 器 被 误诊 为 有 问题 所 产生 的 成 本 远 小 于 忽视 导致 机 
器 故障 的 问题 而 造成 的 损失 。 在 散发 促销 邮件 时 ， 散 发 垃圾 邮件 得 不 到 回应 所 产生 的 成 
本 远 小 于 由 于 没有 将 邮件 发 送 到 会 有 回应 的 家 庭 而 丧失 生意 机 会 所 造成 的 损失 。 为 什么 
第 1 章 中 列举 的 所 有 实例 都 在 这 里 ! 事实 上 ， 你 很 难 找到 不 同类 型 错误 的 成 本 是 相同 的 
应 用 场景 。 

对 一 个 yes 和 no 的 二 类 问题 ， 如 借 或 不 和 借 、 将 可 疑 的 斑点 标记 为 浮 油 或 不 是 浮 油 等 ， 
一 个 预测 可 能 产生 4 种 不 同 的 结果 ， 见 表 5-3。 真 正 例 (True Positive, TP) 和 真 负 例 
(True Negative, TN) 都 是 正确 的 分 类 结果 。 假 正 例 (False Positive, FP) 发 生 在 当 预 测 结 
RA yes (BEH) 而 实际 上 是 no (MAA) 时 ; 假 负 例 (False Negative, FN) 发 生 在 当 
预测 结果 为 负 例 而 实际 上 是 正 例 时 。 真 正 率 (true positive rate) 是 TP 除 以 正 例 的 总 数 
TP FN; 负 正 率 (false positive rate) 是 FP 数值 除 以 负 例 的 总 数 FP + TN。 整 体 的 正确 率 
是 正确 的 分 类 数 除 以 分 类 样本 的 总 数 : 


TP + TN 
TP+TN+FP+FN 
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最 后 ， 误 差 率 就 是 用 1 减 去 它 。 
表 5-3 二 类 预测 的 不 同 结果 





预测 类 别 
yes no 
实际 类 别 yes 真正 例 假 负 例 
no 假 正 例 真 负 例 


在 多 类 预测 中 ， 对 测试 集 的 预测 结果 经 常 使 用 2 维 混淆 和 矩阵 (confusion matrix) 来 表 
示 ， 每 个 类 都 有 对 应 的 行 和 列 。 每 个 矩阵 元 素 显 示 的 是 测试 样本 的 数目 ， 这 些 样 本 的 真实 
类 以 对 应 的 行 显 示 为 准 ， 预 测 类 则 是 对 应 的 列 所 显示 的 类 。 
大 ， 而 非 主 对 角 线 元 素 的 数值 小 (理想 情况 为 0)。 表 5-4a 给 出 了 一 个 三 类 问题 的 例子 。 
EARP, WREN FEA GSP o meet iH, JORUS +49 M12 L0 
是 正确 的 预测 ， 因 此 正确 率 是 70% 。 

但 这 是 公正 的 整体 正确 率 度量 方法 吗 ? 其 中 有 多 少 是 偶然 得 到 的 正确 预测 ? 这 个 预测 
器 预测 120 个 测试 样本 属于 a 类 ，60 个 属于 类 ，20 个 属于 c 类 。 如 果 有 一 个 随机 预测 器 
也 达到 与 此 相同 的 预测 数目 又 会 怎样 呢 ? 答案 可 在 表 5-4b 中 看 到 。 表 5-4b 中 第 一 行将 测 
试 集中 100 个 实际 属于 a 类 的 实例 按 各 类 总 体 比 例 分 扒 。 其 余 两 类 在 第 二 行 和 第 三 行 也 照 
此 法 按 比例 分 挫 。 当 然 ， 这样 得 到 的 矩阵 每 行 、 每 列 的 总 和 与 先前 的 矩阵 是 相同 的 ， 实 例 
数量 没有 改变 ， 而 且 也 保证 了 随机 预测 器 与 真实 预测 器 对 a. b, c 三 个 类 的 预测 数目 是 相 
等 的 。 

表 5-4 一 个 三 类 问题 的 不 同 预 测 结果 : a) 真实 的 ; b) 随机 的 
预测 类 别 
















实际 类 别 a 10 60 30 10 100 
b 36 18 6 60 
c 24 12 4 40 
总 计 120 60 20 





这 个 随机 预测 器 使 60 + 18 +4 =82 个 实例 获得 了 正确 的 预测 。 一 种 称 为 Kappa 统计 量 
(Kappa statistic) 的 度量 将 这 个 随机 预测 的 预期 值 考虑 进去 ， 通 过 将 其 从 预测 器 的 成 功 数 
中 扣除 ， 并 将 结果 表示 为 它 与 一 个 完美 的 预测 器 所 得 结果 的 比例 值 ， 即 从 200 - 82 = 118 
个 可 能 的 成 功 数 中 得 到 140 - 82 = 58 个 额外 的 成 功 数 ， 或 者 说 ，49. 2% 。Kappa 的 最 大 值 
是 100% ， 而 具有 相同 列 的 随机 预测 器 的 Kappa 期 望 值 是 0。 总 的 来 说 ，Kappa 统计 量 用 于 
衡量 对 一 个 数据 集 预 测 分 类 和 观察 分 类 之 间 的 一 致 性 ， 并 对 偶然 得 到 的 正确 预测 进行 修 
正 。 但 是 与 普通 的 正确 率 计 算 一 样 ， 它 也 没有 考虑 成 本 问题 。 


5.7.1 成 本 敏感 分 类 


如 果 成 本 已 知 ， 它 们 可 以 应 用 到 决策 过 程 的 收益 分 析 中 。 在 一 个 二 类 问题 中 ， 混 清算 
阵 如 表 5-3 所 示 ， 它 的 两 种 错误 类 型 ， 假 正 例 和 假 负 例 ， 将 有 不 同 的 成 本 ; 同样 ， 两 种 不 
同 的 正确 分 类 也 可 能 带 来 不 同 的 收益 。 二 类 问题 的 成 本 可 概括 成 一 个 2 x2 的 矩阵 ， 主 对 
角 元 素 代 表 了 两 种 类 型 的 正确 分 类 ， 而 非 主 对 角 元 素 代表 了 两 种 类 型 的 错误 分 类 。 在 多 类 
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情况 下 ， 它 推广 为 一 个 方 阵 ， 方 阵 大 小 就 是 类 的 个 数 ， 并 且 主 对 角 元 素 也 是 代表 了 正确 分 
类 的 成 本 。 表 5-5a、b 分 别 展示 了 二 类 和 三 类 默认 的 成 本 矩阵 ， 和 矩阵 只 是 简单 地 给 出 了 错 
误 数目 : 每 个 错误 分 类 成 本 都 是 1。 


5-5 RAR MASH: a) 二 类 情况 ; b) 三 类 情况 
预测 类 别 









预测 类 别 
b 





实际 类 别 






实际 类 别 yes 


O = —|^6 


1 
0 
1 


ri = Oj 





) 


考虑 成 本 矩阵 ， 用 每 个 决策 的 平均 成 本 〈 或 者 从 正面 看 ， 考 虑 收益 ) 来 代替 正确 率 。 
虽然 这 里 我 们 不 这 样 做 ， 但 决策 过 程 中 完整 的 收益 分 析 也 许 还 要 考虑 使 用 机 器 学 习 工 具 的 
成 本 ， 包 括 搜集 训练 集 的 成 本 和 模型 使 用 的 成 本 ， 或 者 产生 决策 结构 的 成 本 ， 即 决定 测试 
实例 属性 的 成 本 。 如 果 所 有 这 些 成 本 都 是 已 知 的 , 成 本 和 矩阵 中 反映 不 同 结果 的 数值 可 以 估 
计 出 来 ， 比 如 使 用 交叉 验证 法 估计 ， 那 么 进行 这 种 收益 分 析 就 很 简单 了 。 

给 定 成 本 矩阵 ， 可 以 计算 某 个 具体 学 习 模 型 在 某 个 测试 集 上 的 成 本 ， 只 要 将 模型 对 每 
个 测试 实例 进行 预测 所 形成 的 成 本 矩阵 中 的 相关 元 素 相 加 。 进 行 预测 时 ， 成 本 将 被 忽略 ， 
但 进行 评估 时 则 考虑 成 本 。 

如 果 模 型 能 够 输出 与 各 个 预测 相关 联 的 概率 ， 就 能 将 期 望 预测 成 本 调整 到 最 小 。 给 出 
对 某 个 测试 实例 各 个 预测 结果 的 概率 ， 一 般 都 会 选择 最 有 可 能 的 那个 预测 结果 。 或 者 ， 模 
型 也 可 以 选择 期 望 错误 分 类 成 本 最 低 的 那个 类 作为 预测 结果 。 例 如 ， 假 设 有 一 个 三 类 问 
题 ， 分 类 模型 赋予 某 一 个 测试 实例 属于 a、5b5、c 三 个 类 的 概率 分 别 为 p,。、p 和 p.， 它 的 成 
本 和 矩阵 如 表 5-5b 所 示 。 如 果 预 测 属于 a 类 ， 并 且 这 个 预测 结果 是 正确 的 ， 那 么 期 望 预测 
成 本 就 是 将 矩阵 的 第 一 列 [0, 1, 1] 和 概率 向 量 [p,, ps, p.] WR, BE p, +p. RE 
1 -p。， 因 为 三 个 概率 的 和 等 于 1。 类 似 地 ， 另 外 两 个 类 的 预测 成 本 分 别 是 1 — p, 和 1 -p.o 
对 这 个 成 本 矩阵 来 说 ， 选 择期 望 成 本 最 低 的 预测 就 相当 于 选择 了 概率 最 大 的 类 。 对 于 不 同 
的 成 本 矩阵， 情况 可 能 会 有 所 不 同 。 

我 们 假设 前 提 是 学 习 方案 能 输出 概率 ， 就 像 朴 素 贝 叶 斯 方法 那样 。 即 使 通常 情况 下 不 
输出 概率 ， 大 多 数 分 类 器 还 是 很 容易 计算 概率 的 。 如 决策 树 ， 对 一 个 测试 实例 的 概率 分 布 
就 是 对 应 叶子 结 点 上 的 类 分 布 。 


5.7.2 成 本 敏感 学 习 


我 们 已 经 看 到 怎样 利用 一 个 在 建 模 时 不 考虑 成 本 的 分 类 器 做 出 对 成 本 和 矩阵 敏感 的 预 
测 。 在 这 种 情况 下 ， 成 本 在 训练 阶段 被 忽略 ， 但 在 预测 阶段 则 要 使 用 。 另 一 种 方法 正好 相 
反 ， 在 训练 过 程 中 考虑 成 本 ， 而 在 预测 时 忽略 成 本 。 从 理论 上 讲 ， 如 果 学 习 算法 给 分 类 器 
合适 的 成 本 矩阵 ， 可 能 会 获得 较 好 的 性 能 。 

对 一 个 二 类 问题 ， 有 一 个 简单 的 常用 方法 能 使 任何 一 个 学 习 方 法 变 为 成 本 敏感 的 。 想 
法 是 生成 拥有 不 同类 别 比例 的 yes 和 no 的 实例 训练 数据 。 假 设 人 为 地 提高 数据 集中 属于 
no 类 的 实例 数量 为 原来 的 10 倍 ， 然 后 用 这 个 数据 集 进 行 训练 。 如 果 学 习 方案 是 力争 使 错 
误 数 最 小 化 的 ， 那 么 将 形成 一 个 倾向 于 避免 对 no 类 实例 错误 分 类 的 决策 结构 ， 因 为 这 种 
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错误 会 带 来 10 倍 的 惩罚 。 如 果 在 测试 数据 中 ， 属 于 no 类 实例 的 比例 还 是 按照 它 在 原始 数 
据 中 的 比例 ， 那 么 no 类 实例 的 错误 将 小 于 属于 yes 类 的 实例 ， 也 就 是 说 ， 假 正 例 将 少 于 假 
负 例 ， 因 为 假 正 例 已 被 加 权 而 达到 10 倍 于 假 负 例 。 改 变 训练 集中 实例 的 比例 是 一 种 建立 
成 本 敏感 分 类 器 的 常用 技术 。 

改变 训练 集 实例 比例 的 一 种 方法 是 复制 数据 集中 的 实例 。 然 而 ， 很 多 学 习 方案 允许 对 
实例 加 权 〈 正 如 我 们 在 3.2 节 中 提 到 的 ， 这 是 处 理 缺 失 值 的 一 种 常用 技术 ) 。 实 例 的 权 值 
通常 初始 化 为 1。 为 了 建立 成 本 敏感 的 分 类 器 ， 权 值 可 以 初始 化 为 两 种 错误 的 相对 成 本 ， 
即 假 正 例 和 假 负 例 所 对 应 的 成 本 。 


5.7.3 提升 图 


在 现实 中 ， 很 难 知道 成 本 是 多 少 ， 有 多 准确 ， 人 们 要 考虑 各 种 不 同 的 场景 。 想 象 你 正 
在 从 事 直接 邮寄 广告 的 业务 ， 要 将 一 个 促销 广告 大 规模 地 邮寄 给 1 000 000 户 家 庭 ， 当 然 
大 部 分 家 庭 是 不 会 有 回应 的 。 根 据 以 往 的 经 验 ， 得 到 回应 的 比例 是 0.1% (A 1000 个 回应 
者 ) 。 假 设 我 们 现 有 一 套数 据 挖掘 工具 ， 根 据 我 们 对 这 些 家 庭 掌握 的 信息 ， 能 识别 出 其 中 
的 100 000 户 家 庭 子 集 ， 回 应 率 达 0. 4% (A 400 个 回应 者 ) 。 根 据 邮寄 成 本 与 回应 所 带 来 
盈利 的 比较 ,将 邮寄 广 告 限定 在 这 100 000 户 家 庭 上 也 许 是 很 划算 的 。 在 市 场 学 术语 中 ， 
回应 率 的 增加 ， 在 这 个 例子 中 系数 为 4， 称 为 由 学 习 工 具 带 来 的 提升 因子 (lift factor)。 如 
果 知 道成 本 ， 就 能 确定 某 个 具体 提升 因子 所 隐 含 的 盈利 。 

然而 ， 你 很 可 能 还 需要 评估 其 他 的 可 能 性 。 采 用 相同 的 数据 挖掘 方法 而 选择 不 同 
参数 设置 ， 也 许 会 识别 出 其 中 的 400 000 户 家 庭 ， 回 应 率 为 0.2% (有 800 个 回应 
者 ) ， 对 应 的 提升 因子 为 2。 同 样 ， 这 样 邮寄 广告 是 否 更 有 利 可 图 ， 可 以 从 所 投入 的 
成 本 计算 中 看 出 。 考 虑 模型 建立 和 模型 应 用 成 本 因素 也 许 是 必要 的 ， 这 包括 生成 属性 
值 所 需要 的 信息 搜集 。 上 毕竟， 如 果 模 型 生成 代价 非常 昂贵 ， 大 规模 的 邮寄 比 锁定 目标 
更 具 成 本 效率 。 

给 定 一 个 能 输出 对 测试 数据 集 每 个 成 员 的 类 预测 概率 的 学 习 方案 〈 如 朴素 贝 叶 斯 方 
法 )， 你 的 工作 是 找 出 一 些 测试 实例 子 集 ， 这 些 子 集 所 含 的 正 例 的 比例 高 于 正 例 在 整个 
测试 集中 所 占 的 比例 。 为 此 ， 将 所 有 测试 实例 按照 预测 yes 概率 的 降序 排列 。 这 样 ， 要 
找 出 一 个 给 定 大 小 、 正 例 所 占 比例 尽 可 能 大 的 样本 ， 只 要 在 测试 实例 序列 中 从 头 开 始 读 
取 要 求 数量 的 实例 。 如 果 每 个 测试 实例 的 真实 类 别 已 知 ， 就 可 以 计算 提升 因子 ， 只 要 将 
样本 中 正 例 的 数量 除 以 样本 数量 得 到 一 个 正确 比例 ， 然 后 再 除 以 整个 测试 集 的 正确 比 
例 ， 就 可 以 得 到 提升 因子 。 

表 5-6 给 出 一 个 例子 ， 一 个 包含 150 个 实例 的 小 数据 集 ， 其 中 50 个 是 yes (MAE 
应 ) ， 因 此 总 体 正 确 比例 是 33% 。 所 有 的 实例 已 经 按照 它们 被 预测 为 yes 概率 的 降序 排列 。 
序列 中 的 第 一 个 实例 是 学 习 方 法 认为 最 有 可 能 得 到 回应 的 ， 第 二 个 是 下 一 个 最 有 可 能 的 ， 
依 此 类 推 。 概 率 的 数值 并 不 重要 : 排名 才 是 重要 的 。 每 个 实例 的 真实 类 都 已 给 出 。 可 以 看 
出 ， 这 个 学 习 方 法 对 第 一 项 和 第 二 项 的 预测 都 是 正确 的 ， 它 们 确实 是 正 例 。 可 是 第 三 项 却 
是 错误 的 ， 它 的 结果 是 负 例 。 如 果 你 现在 要 寻找 10 个 最 有 希望 的 实例 ， 但 只 知道 预测 概 
率 而 不 知 真实 的 类 ， 那 么 最 佳 的 选择 就 是 排名 中 的 前 10 个 实例 。 其 中 8 个 是 有 肯定 回应 
的 ， 因 此 正确 比例 就 是 80% ， 对 应 的 提升 因子 约 为 2.4。 
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表 5-6 提升 图 数据 
排名 预测 值 实际 类 别 排名 预测 值 实际 类 别 
1 0.95 yes 11 0.77 no 
2 0.93 yes 12 0.76 yes 
3 0.93 no 13 0.73 yes 
4 0. 88 yes 14 0. 65 no 
5 0. 86 yes 15 0. 63 yes 
6 0. 85 yes 16 0. 58 no 
7 0. 82 yes 17 0. 56 yes 
8 0. 80 yes 18 0. 49 no 
9 0. 80 no 19 0. 48 yes 
10 0.79 yes eis Sra a 


如 果 你 知道 所 投入 的 不 同 成 本 ， 就 可 以 对 不 同 大 小 的 样本 计算 成 本 ， 然 后 选择 收益 最 
大 的 样本 。 然 而 ， 通 过 图 形 展示 各 种 不 同 的 可 能 性 经 常 比 只 提供 一 个 “最 佳 ”决策 更 有 启 
发 作用 。 用 不 同 大 小 的 样本 重复 上 述 操作 ， 就 能 画 出 如 图 5-1 的 提升 图 。 横 轴 是 样本 大 小 
与 所 有 可 能 邮寄 数量 的 比例 。 纵 轴 是 所 得 到 的 回应 数量 。 左 下 角 点 和 右上 角 点 分 别 代表 没 
有 邮寄 得 到 0 个 回应 和 全 数 邮 和 寄 得 到 1000 个 回应 。 对 角 线 给 出 了 针对 不 同 大 小 的 随机 样 
本 的 期 望 结果 。 但 我 们 不 是 随机 抽取 样本 ， 而 是 利用 数据 挖掘 工具 选择 那些 最 有 可 能 给 出 
回应 的 实例 样本 。 这 在 图 中 对 应 位 于 上 方 的 那 条 曲线 ， 它 是 由 实际 得 到 的 回应 样本 数 之 和 
与 对 应 的 按 概 率 排序 的 实例 百分比 来 确定 的 。 上 面 讨 论 过 的 两 个 具体 例子 在 图 5-1 中 标记 
为 : 1096 邮寄 比例 产生 400 个 回应 者 和 40% 邮寄 比例 产生 800 个 回应 者 。 
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图 5-1 一 个 假设 的 提升 图 


你 所 希望 的 位 置 是 在 图 中 靠近 左上 角 ， 最 好 的 情况 是 1000 个 邮寄 广告 获得 1000 个 回 
应 ， 这 时 你 只 将 邮件 寄 给 会 有 回应 的 家 庭 并 获得 100% 的 成 功率 。 任 何 名 副 其 实 的 选择 程 
序 都 会 让 你 保持 在 对 角 线 上 方 ， 否 则 你 的 结果 比 随机 取样 还 差 。 因 此 ， 提 升 图 的 工作 部 位 
是 在 上 三 角 位 置 ， 离 左上 和 角 越 近 越 好 。 

图 5-2a 显示 了 一 个 交互 式 的 探索 不 同 成 本 情况 下 的 可 视 化 结果 (叫做 成 本 - 收益 分 
析 器 (cost-benefit analyer) ， 它 是 Weka 工作 台 的 一 部 分 ， 将 在 第 三 部 分 介绍 ) 。 这 里 ， 它 
显示 了 贝 叶 斯 分 类 器 在 一 个 真实 的 直接 邮寄 数据 集 上 的 预测 结果 。 在 这 个 例子 中 ，47 706 
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个 实例 用 于 训练 ， 另 外 有 47 706 个 实例 用 于 测试 。 测 试 实例 根据 预测 出 的 邮寄 广告 回应 的 
概率 排列 。 该 图 左 半 部 分 显示 了 提升 图 ， 右 半 部 分 显示 了 对 应 样本 的 总 成 本 (或 收益 )。 
左下 是 混淆 矩阵 ， 右 下 是 成 本 矩阵 。 

可 以 将 分 类 错误 的 成 本 和 分 类 正确 的 收益 填 人 和 拖 阵 中 ， 这 将 会 影响 上 方 曲 线 的 形状 。 
中 间 的 水 平滑 块 允许 用 户 改变 从 排序 的 列表 中 选择 样本 的 比例 。 或 者 ， 可 以 通过 调整 召回 
率 (样本 中 正 例 的 比例 ) 或 者 通过 调整 正 例 概率 的 阔 值 来 确定 样本 大 小 ， 这 里 的 正 例 是 指 
对 邮寄 广告 有 回应 的 实例 。 移 动 滑 块 时 ， 两 个 图 上 都 会 有 义 符号 表示 相应 的 点 。 右 下 角 会 
显示 样本 大 小 确定 时 的 总 成 本 或 收益 ， 以 及 同样 条 件 下 随机 邮寄 广告 的 期 望 成 本 或 收益 。 
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b) 邮寄 成 本 为 0.80 美 元 
图 5-2 分 析 邮 寄 广告 的 期 望 收益 


图 5-2a 中 的 成 本 和 矩阵 中 ,没有 回应 的 邮寄 成 本 是 0. 50 美元 ， 有 回应 带 来 的 收益 是 
15.00 美元 ( 减 去 邮寄 成 本 之 后 )。 在 这 些 条 件 下 ,使 用 贝 叶 斯 分 类 器 ， 在 排序 的 列表 中 
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取 前 面 的 任何 子 集 都 不 会 比 使 用 整个 列表 得 到 更 高 的 收益 。 但 是 ， 稍 微 提 高 一 点 儿 邮 寄 成 
本 ， 情 况 就 会 发 生 很 大 变化 ， 图 5-2b 显示 了 邮寄 成 本 增加 到 0. 80 美元 时 发 生 的 情况 。 假 
设 每 个 回应 带 来 的 收益 仍 是 15. 00 美元 ， 给 前 47. 6% 的 样本 邮寄 广告 将 会 取得 最 大 的 收益 
为 4560. 60 美元 ， 而 同样 大 小 的 随机 抽样 则 会 亏损 99. 59 美元 。 


5.7.4 ROC 曲线 


提升 图 是 非常 有 用 的 工具 ， 广 泛 应 用 于 市 场 营 销 领域 。 它 与 一 种 评估 数据 挖掘 方案 的 
图 形 技术 (ROC 曲线 (ROC eurve) ) 关系 密切 。ROC 曲线 同样 适用 于 上 述 情 形 ， 学 习 器 
选择 测试 实例 样本 时 尽量 使 正 例 的 比例 较 高 。 接 收 器 工作 特性 (Receiver Operating Charac- 
teristic, ROC) 是 一 个 信号 检测 的 术语 ， 用 来 体现 噪声 信道 中 命中 率 和 错误 报警 之 间 的 权 
i. ROC 曲线 描绘 分 类 器 的 性 能 而 不 考虑 类 分 布 或 误差 成 本 。 纵 轴 表 示 真 正 率 ， 横 轴 表 示 
真 负 率 。 前 者 是 样本 中 正 例 的 数目 ， 用 它 占 所 有 正 例 的 百分比 表示 (真正 率 = 100 x TP/ 
(TP & FN)) ; 后 者 是 样本 中 负 例 的 数目 ， 用 它 占 所 有 负 例 的 百分比 表示 ( 真 负 率 = 100 x 
FPA(FP +TN))。 纵 轴 实 际 上 和 提升 图 是 一 样 的 ， 只 是 它 是 用 百分比 来 表示 。 横 轴 稍 许 有 
点 差别 ， 由 负 例 的 数量 代替 样本 大 小 。 然 而 ， 在 市 场 直销 中 ， 正 例 的 比例 是 非常 小 的 (如 
0. 1% ) ， 样 本 大 小 和 负 例 数量 之 间 的 差别 可 以 忽略 ， 因 此 ROC 曲线 与 提升 图 看 起 来 很 相 
似 ,左上 角 是 工作 位 置 。 

图 5-3 展示 了 表 5-6 所 列 测试 数据 样本 的 ROC 曲线 (锯齿 线 )。 你 可 以 和 表 结 合 在 一 
起 看 。 从 原点 开始 ， 向 上 2 (2 个 正 例 )， 向 右 1 (1 个 负 例 ) ， 向 上 5 (5 个 正 例 ) ， 向 右 2 
(2 个 负 例 )， 向 上 1， 向 右 1， 向 上 2 等 。 每 个 点 对 应 排序 后 列表 中 的 某 个 位 置 ， 累 计 yes 
和 no 的 数量 分 别 朝 纵向 和 横向 画 线 。 顺 着 列表 往 下 ， 样 本 扩大 ， 正 例 和 负 例 的 数量 也 随 
之 增长 。 
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图 5-3 一 条 简单 的 ROC 曲线 
图 5-3 中 的 锯齿 形 ROC 曲线 依赖 于 具体 测试 数据 样本 的 内 容 。 运 用 交叉 验证 可 以 降低 对 
样本 的 依赖 。 对 每 个 不 同 的 no 的 数量 ， 即 沿 横 轴 方向 的 每 个 位 置 ， 取 适量 排 在 前 面 的 实例 
且 刚 好 包含 这 些 no 类 的 实例 ， 计 算 其 中 yes 的 个 数 。 最 后 将 交叉 验证 的 不 同 折 所 得 的 yes 的 
个 数 取 平均 值 。 结 果 得 到 如 图 5-3 中 的 光滑 曲线 ， 但 在 现实 中 这 种 曲线 并 不 如 此 光滑 。 





这 只 是 利用 交叉 验证 产生 ROC 曲线 的 一 种 方法 ， 更 简便 的 方法 是 收集 在 所 有 不 同 测试 
集 (在 10 折 交 叉 验 证 中 有 10 个 测试 集 ) 上 的 预测 概率 ， 连 同 各 个 实例 所 对 应 的 真实 类 标 
号 ， 然 后 根据 这 些 数据 生成 一 个 排序 列表 。 这 里 假设 由 不 同 训练 集 建立 的 分 类 器 的 概率 估计 
都 是 基于 相同 大 小 的 随机 数据 样本 。 到 底 哪 种 方法 更 好 并 不 很 清楚 ， 但 是 后 者 更 易于 实现 。 

如 果 学 习 方案 不 能 对 实例 进行 排序 ， 可 以 如 前 所 述 先 将 其 变 为 成 本 敏感 的 。 在 10 折 
交叉 验证 的 每 个 折 中 ， 对 实例 选择 不 同 的 成 本 比例 加 权 ， 在 每 个 加 权 后 的 数据 集 上 进行 训 
练 ， 在 测试 集 上 计算 真正 例 和 假 正 例 的 数量 ， 然 后 将 结果 画 在 ROC 坐标 轴 上 (测试 集 是 
否 加 权 没 有 关系 ， 因 为 在 ROC 图 中 坐标 轴 数 值 是 用 真正 例 或 假 正 例 的 百分比 来 表示 的 ) 。 
但 是 ， 对 一 些 原 本 就 成 本 敏感 的 概率 性 分 类 器 (如 朴素 贝 叶 斯 ) 来 说 ， 学 习 成 本 会 大 大 增 
加 ， 因 为 在 曲线 的 每 个 点 上 都 要 包含 一 个 独立 的 学 习 问 题 。 

比较 由 不 同 的 学 习 方 法 得 到 的 ROC 曲线 是 很 有 帮助 的 。 例 如 ， 在 图 5-4 中 ， 如 果 要 寻 
求 一 个 规模 较 小 且 集 中 的 样本 ， 也 就 是 说 ， 如 果 图 形 左 侧 是 你 的 目标 ， 那 么 A 方法 有 优越 
性 。 明 确 地 说 ， 如 果 你 的 目标 是 覆盖 40% 的 正 例 ， 就 选择 A 模型 。 其 假 正 率 在 5 多 左右 ， 
这 比 假 正 率 达 20% 以 上 的 B 模型 好 。 但 如 果 你 计划 使 用 一 个 大 型 的 样本 ，B 模型 具有 优越 
性 。 如 果 你 要 覆盖 80% 的 正 例 ，B 模型 所 产生 的 假 正 率 在 60% mu A 模型 则 达 8096, BA 
影 区 域 称 为 两 个 曲线 之 间 的 西 包 (convex hull) ， 你 总 是 要 达到 凸 包 的 上 边界 。 
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图 5-4 ”两 个 学 习 方法 的 ROC 曲线 


那么 既 不 属于 A 方法 也 不 属于 B 方法 的 凸 包 中 间 区 域 呢 ? 这 是 个 值得 注意 的 事实 ， 你 
可 以 将 A 方法 和 B 方法 以 适当 的 概率 随机 组 合 ， 而 达到 阴影 区 域 的 任何 位 置 。 为 了 说 明 这 
点 ,A 方法 的 真正 率 和 假 正 率 分 别 为 和 f， 同 样 ，B 方法 的 真正 率 和 假 正 率 分 别 为 is 和 
fs， 我 们 为 两 种 方法 分 别 选择 某 一 具体 的 概率 权 值 。 如 果 随 意 使 用 这 两 个 学 习 方法 的 概率 
分 别 为 p 和 g， 且 p+g=1， 那么 你 将 得 到 的 真正 率 和 假 正 率 分 别 为 pt, + qty 和 pf + qfs。 
这 代表 了 位 于 (i, fu) 和 (tis, fs) 两 点 之 间 的 直线 上 的 某 一 个 点 ， 改 变 p Al 的 值 可 以 
描绘 出 这 两 点 之 间 的 整 条 连 线 。 这 样 整个 阴影 区 域 的 每 个 点 都 可 以 得 到 。 只 有 当 某 个 方法 
产生 一 个 点 正好 落 在 凸 包 上 边界 时 ， 单 独 使 用 这 个 方案 ; 和 否则， 最 好 使 用 多 个 分 类 器 的 组 
合 ， 这 与 凸 包 上 点 对 应 。 
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5.7.5 召回 率 -精确 率 曲线 


人 们 已 经 通过 描绘 各 个 不 同 领域 的 提升 图 和 ROC 曲线 ， 解 决 了 一 些 基本 性 的 权衡 问 
题 。 信 息 检 索 就 是 一 个 很 好 的 例子 。 提 交 一 个 查询 ， 网 络 搜索 引擎 就 列 出 一 串 经 推测 与 查 
询 相关 的 文件 。 某 个 系统 有 100 个 文件 ， 其 中 40 个 为 相关 文件 ， 而 另 一 个 系统 有 400 个 
文件 ， 其 中 80 个 为 相关 文件 。 比 较 两 个 系统 ， 哪 个 更 好 呢 ? 答案 很 明显 ， 它 是 由 假 正 例 
(返回 但 却 不 相关 的 文件 ) 以 及 假 负 例 (相关 的 却 没有 返回 的 文件 ) 对 应 的 成 本 决定 的 。 
信息 检索 研究 人 员 定 义 了 两 个 参数 ， 称 为 召回 率 (recall) 和 精确 率 (precision) ; 

gua -BERA NMAN XNA 
Ho Hu dE 

， 被 检索 到 的 相关 的 文档 数 

精确 率 = “检索 得 到 的 文档 的 总 数 

例如 ， 如 果 表 5-6 中 所 列 出 的 是 检索 反馈 的 文件 排名 ，yes 和 no 表示 这 个 文件 是 否 相 
关 ， 而 整个 文档 集中 共 包 含 了 40 个 相关 的 文件 ， 那 么 “文档 数 为 10 的 召回 率 ” 就 是 指 排 
名 中 前 10 项 的 召回 率 ， 即 是 8/40 =20% ; “文档 数 为 10 的 精确 率 ” 就 是 8/10 =80% 。 信 
息 检索 专家 使 用 召回 率 -精确 率 曲线 (recall-precision curve), $ ROC 曲线 和 提升 图 一 样 ， 
对 不 同 的 检索 文档 数目 ， 逐 一 画 出 相应 的 召回 率 和 精确 率 。 只 是 因 坐 标 轴 不 同 ， 曲 线 成 双 
曲 形状 ， 期 望 的 工作 点 在 右上 角 。 | 








5.7.6 讨论 


365-7 总 结 了 我 们 已 介绍 的 三 个 基本 权衡 的 不 同 评估 方法 ，TP、FP、TN 和 FN 分 别 代 
表 真正 例 、 假 正 例 、 真 负 例 和 假 负 例 。 你 想 选 择 一 个 包含 yes 类 实例 的 比例 较 高 ， 并 且 yes 
类 的 覆盖 范围 也 较 大 的 实例 集 ， 可 以 (保守 地 ) 选用 略 小 一 点 的 覆盖 范围 提高 yes 类 比 
fp], 或 者 损失 yes 类 比例 来 提高 覆盖 范围 。 不 同 的 技术 提供 不 同 的 折 中 方案 ， 并 可 用 上 述 
任何 一 种 图 形 绘 制 出 不 同 的 曲线 。 


35-7 权衡 假 正 例 和 假 负 例 的 不 同 评估 度量 方法 











领域 绘制 坐标 轴 坐标 轴 含义 
真正 例 的 个 数 
提升 图 市 场 营销 E onis Kram ucc 
3 TP « FP & TN 4 FN 2 
真正 率 和 假 — 真正 率 假 P= ap FN *100% 
ROC 曲线 通信 i dk E RÀ 
P = wp, TN * 100% 
召回 率 - 精确 信息 检索 召回 率 和 精 召回 率 精 TRER 
ET acis 确 率 确 率 Tp. pp * 100% 


人 们 还 试图 寻找 单一 的 量度 来 体现 性 能 。 在 信息 检索 中 使 用 的 两 种 方法 就 是 3 点 平均 
召回 率 (three-point average recall) ， 即 在 召回 率 达 20% 、50% 和 80% 时， 所 对 应 的 3 个 精 
确 率 的 平均 值 ; 另 一 种 是 11 点 平均 召回 率 (11- point average recall), ， 即 在 召回 率 达 0% 、 
10% . 20% , 30% , 40% , 50% , 60% , 7096 . 80% , 90% 和 100% 时 所 对 应 的 精确 率 的 
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平均 值 。 信 息 检索 领域 也 经 常 使 用 已 度量 (下 -measure) Bf) 
2x 召回 率 x 精确 率 _ 2 x TP 
， 召回 率 + 精确 率 2 xTP+FP+FN 
不 同 的 领域 使 用 不 同 的 术语 。 例 如 ， 在 医学 上 谈论 诊断 试验 的 敏感 性 (sensitivity) 和 
特异 性 (specificity) 。 敏 感性 是 指 在 患 病 人 群 中 ,诊断 结果 是 阳性 (得 病 ) 的 比例 ， 即 
加。 特异 性 是 指 在 没有 病 的 人 群 中 ， 诊 断 结 果 也 是 阴性 的 比例 ， 即 1 - 思 。 有 时 它们 的 乘积 
被 当做 一 种 总 体 度量 : 


敏感 性 x 特异 性 = tp(1 -fp) = TP x TN 


~ (TP + FN) x (FP + TN) 
最 后 ， 当 然 还 有 我 们 的 老 朋 友 ， 正 确 率 : 
TP + TN 
TP+TN+FP+FN 


为 了 将 ROC 曲线 概括 成 单一 的 度量 ， 人 们 有 时 选用 曲线 下 面积 (Area Under the 
Curve，AUC) ， 因 为 一 般 说 来 ， 面 积 越 大 ， 模 型 越 好 。 这 个 面积 也 可 以 很 恰当 地 解释 为 分 
类 器 将 任意 抽取 的 正 例 实例 排列 在 任意 抽取 的 负 例 实例 之 前 的 概率 。 如 果 在 成 本 和 类 分 布 
都 是 未 知 的 情况 下 ， 要 选择 一 种 方案 来 处 理 所 有 的 情况 ， 这 种 度量 方法 也 许 会 有 帮助 。 但 
是 仅 靠 一 个 数字 是 无 法 尽善尽美 地 处 理 一 个 折 中 问题 的 ， 只 有 类 似 于 提升 图 、ROC 曲线 和 
召回 率 - 精确 率 曲线 那样 的 2 维 描述 才能 解决 。 

目前 有 几 种 常用 的 计算 ROC 曲线 下 面积 的 方法 。 一 种 是 几何 学 的 方法 ， 用 曲线 下 方 
填充 梯形 的 面积 之 和 来 近似 。 另 一 种 方法 是 计算 分 类 器 将 一 个 随机 选择 的 正 例 排 在 一 个 随 
机 选择 的 负 例 前 的 概率 。 这 可 以 通过 计算 曼 - 惠 特 尼 U 统计 量 (U statistic) 得 到 ， 或 者 
更 确切 地 说 ， 是 基于 U0 统计 量 计算 p 统计 量 (p statistic)。 这 个 值 很 容易 计算 。 将 测试 集 
按 预测 为 正 例 的 概率 降序 排列 ， 对 于 每 一 个 正 例 ， 计 算 有 多 少 个 负 例 排 在 它 后 面 (如 果 正 
例 和 负 例 在 列表 中 的 位 置 相 同 ， 即 为 预测 为 正 例 的 概率 相同 ， 则 每 个 负 例 按 1/2 计算 ) 。 
所 有 这 些 计数 的 总 和 就 是 U 统计 量 ， 而 将 0 统计 量 除 以 正 例 个 数 和 人 负 例 个 数 之 积 ， 得 到 
的 就 是 p 统计 量 。 也 就 是 说 ， 如 果 所 有 的 正 例 都 排 在 负 例 的 前 面 ， 那么 U 统计 量 等 于 正 例 
个 数 和 负 例 个 数 之 积 ，p 统计 量 等 于 1。 

召回 率 -精确 率 曲线 下 面积 (Area Under the Precision- Recall Curve, AUPRC) 也 是 在 
实践 中 可 以 选择 使 用 的 一 种 汇总 统计 量 ， 特 别 是 在 信息 检索 领域 。 


5.7.7 成 本 曲线 


ROC 曲线 以 及 与 此 类 似 的 其 他 方法 在 研究 不 同 分 类 器 及 其 成 本 之 间 的 权衡 是 非常 有 用 
的 。 但 是 它们 不 适用 于 在 已 知 错误 成 本 的 情况 下 评估 机 器 学 习 模型 。 比 如 要 读 出 某 个 分 类 
器 的 期 望 成 本 ， 即 一 个 确定 的 成 本 矩阵 和 类 分 布 ， 并 不 是 一 件 容 易 的 事 。 要 确定 不 同 分 类 
器 的 适用 性 也 不 容易 。 在 图 5-4 中 ， 在 两 条 ROC 曲线 交叉 点 ， 很 难说 分 类 器 A 以 多 大 的 
成 本 和 类 分 布 胜 过 分 类 器 B。 

成 本 曲线 (cost curve) 是 另 一 种 不 同 的 展示 方法 ， 一 个 分 类 器 对 应 一 条 直线 ， 它 所 展 
示 的 是 性 能 如 何 随 类 分 布 的 变化 而 变化 。 它 们 也 是 针对 二 类 问题 效果 最 佳 ， 尽 管 多 类 问题 
总 是 可 以 通过 挑选 其 中 一 个 类 对 照 其 余 的 类 而 转化 为 二 类 问题 。 

图 5-5a 画 出 了 期 望 误差 与 其 中 一 个 类 概率 之 间 的 关系 。 你 可 以 想象 通过 对 测试 集 不 
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均匀 重新 取样 来 调整 这 个 概率 。 我 们 将 两 个 类 分 别 表示 为 + 和 - ， 两 条 对 角 线 展示 的 是 两 
个 极端 的 分 类 器 的 性 能 表现 : 其 中 一 个 分 类 器 始终 预测 是 + 类， 如 果 数 据 集 中 没有 属于 + 
类 的 实例 ， 那 么 期 望 误差 则 为 1; 如 果 所 有 实例 都 属于 + 类 ， 那 么 期 望 误差 则 为 0。 另 一 
种 分 类 器 始终 预测 是 -类 ， 则 给 出 正好 相反 的 性 能 。 水 平 虚线 表示 分 类 器 预测 始终 是 错误 
的 ， 而 % 轴 本 身 则 表示 始终 预测 正确 的 分 类 器 。 当 然 这 些 在 实践 中 都 是 不 现实 的 。 好 的 分 
类 器 误差 率 低 ， 因 此 你 所 想 要 的 是 尽 可 能 地 接近 图 形 底部 。 

直线 A 代表 了 茶 个 分 类 器 的 误差 率 。 如 果 你 在 某 个 测试 集 上 计算 它 的 性 能 表现 ， 假 正 
率 刀 就 是 它 在 全 部 为 负 例 (p[ +] =0) 的 测试 子 集 上 的 期 望 误 差 率 ， 而 假 负 率 .所 就 是 它 
在 全 部 为 正 例 (pl +] =1) 的 测试 子 集 上 的 误差 率 。 它 们 的 值 分 别 是 直线 左右 两 端的 纵 
坐标 值 。 从 图 5-5a 中 可 以 发 现 ， 当 pl + ] 约 小 于 0.2 时 ， 始 终 预 测 -类 的 极端 分 类 器 性 
能 优 于 预测 器 A， 而 当 p[ +] 约 大 于 0. 65 时 ， 另 一 个 极端 分 类 器 性 能 优 于 预测 器 A. 





0.5 
概率 成 本 函数 ，p.[+] 
a) 误差 曲线 b) 成 本 曲线 

图 5-5 概率 阔 值 变化 所 产生 的 影响 


0.5 
概率 ，P[+] 


到 目前 为 止 ， 我 们 还 没有 考虑 成 本 问题 ， 或 者 可 以 说 用 的 是 默认 成 本 矩阵 ， 所 有 的 错 
误 产 生 的 成 本 是 一 样 的 。 考 虑 误差 成 本 的 成 本 曲线 ， 除 了 坐标 轴 不 同 外 ， 看 起 来 非常 地 相 
似 。 图 5-5b 展示 了 分 类 器 A 的 成 本 曲线 〈 注 意 ， 为 方便 ， 纵 坐标 比例 放大 了 。 我 们 现在 
暂时 忽略 图 中 的 灰 线 条 ) 。 成 本 曲线 图 展示 的 是 使 用 A 的 期 望 成 本 对 应 的 概率 成 本 函数 。 
概率 成 本 函数 其 实 是 p[ + ] 的 变形 ， 同 样 保持 着 两 种 极端 : Spl + ] =0 时 ， 期 望 成 本 为 
0; 当 pL+]=1 时 ， 则 为 1。 当 实例 预测 值 是 + 类 而 实际 上 是 - 类 时 ， 成 本 表示 为 





Cl + | - ]， 反 之 则 表示 为 CL - | + ] 。 这 样 ， 图 5-5b 的 坐标 轴 分 别 是 : 
规范 化 后 的 期 望 成 本 = 所 x pe[ +] fo x (1 pL) 
d o pL *1CL-14] 
WAGE pol +] = GET Te] +alle TS 
这 里 假设 正确 的 预测 是 没有 成 本 的 ， 即 C[ + | + ] = C[ - | - ] =0。 如 果 不 是 这 样 ， 上 述 


公式 要 复杂 一 些 。 

规范 化 后 的 期 望 成 本 最 大 值 可 达到 1， 这 也 是 为 什么 称 它 是 “规范 化 ”的 原因 。 好 在 
成 本 曲线 与 误差 曲线 一 样 ， 图 中 5-5b 的 左右 极端 成 本 值 正 是 包 和 所 ， 因 此 可 以 很 容易 地 
画 出 任意 一 个 分 类 器 的 成 本 曲线 图 。 


第 5 章 TÈ: 评估 学 习 结 果 127 





图 5-5b 中 分 类 器 B. 的 期 望 成 本 始终 保持 一 致 ， 也 就 是 说 它 的 假 正 率 和 假 负 率 是 相等 
的 。 正 如 你 所 看 到 的 ， 当 概率 成 本 函数 值 约 大 于 0.45 时 ， 它 的 性 能 优 于 分 类 器 A， 知 道 
了 成 本 ， 我 们 就 能 很 容易 地 计算 相应 的 类 分 布 。 遇 到 有 不 同类 分 布 的 情形 ， 用 成 本 曲线 可 
很 容易 地 表明 某 个 分 类 器 性 能 优 于 另 一 个 。 

在 何 种 情况 下 这 会 有 用 呢 ? 回 到 我 们 讲述 的 预测 母 牛 发 情 期 的 例子 ， 它 们 有 30 天 的 
周期 ， 或 者 说 1/30 的 先 验 概 率 ， 一 般 不 会 有 很 大 的 变化 。 (除非 基因 突变 !) 但 某 个 牧场 
在 任何 指定 的 星期 里 很 可 能 处 于 发 情 期 的 母 牛 会 有 不 同 的 比例 ， 也 许 和 月 亮 的 月 相同 步 ， 
谁 知道 呢 ? 因此 ， 不 同 的 时 期 适合 使 用 不 同 的 分 类 器 。 在 石油 泄漏 的 例子 中 ， 不 同 批 的 数 
据 会 得 到 不 同 的 泄漏 概率 。 在 这 些 情况 下 ， 成 本 曲线 可 帮助 显示 何 时 使 用 何 种 分 类 器 。 

在 提升 图 、ROC 曲线 或 召回 率 — 精确 率 曲线 上 ， 每 一 个 点 代表 一 个 由 某 种 算法 Cl 
朴素 贝 叶 斯 算法 ) 取 不 同 净值 所 获得 的 分 类 器 。 成 本 曲线 中 每 个 分 类 器 由 一 条 直线 代表 ， 
一 系列 的 分 类 器 将 扫 出 一 条 弯曲 的 分 类 器 包 络 线 ， 它 的 下 限 显示 出 这 种 类 型 的 分 类 器 当 参 
数 选择 适当 时 性 能 表现 将 如 何 。 图 5-5b 用 一 系列 的 灰 线 条 展示 了 这 些 。 如 果 继 续 下 去 ， 
最 终 将 扫 出 图 中 的 那 条 用 虚线 画 的 抛物 线 。 

分 类 器 B 的 工作 区 间 在 概率 成 本 值 0. 25 ~ 0.75 之 间 。 在 这 个 区 间 之 外 ， 由 虚线 表示 的 
其 他 分 类 器 性 能 比 B 好 。 假 设 我 们 决定 要 在 这 个 工作 区 中 使 用 分 类 器 B 并 在 这 个 工作 区 之 上 
或 之 下 的 范围 使 用 其 他 合适 的 分 类 器 。 所 有 在 抛物 线 上 的 点 肯定 都 比 这 个 方案 好 ， 但 究竟 有 
多 好 ? 从 ROC 曲线 的 角度 很 难 回 答 这 个 问题 ， 但 从 成 本 曲线 来 看 就 很 容易 解答 。 当 概率 成 
本 值 在 0.5 左右 时 ， 性 能 差异 可 忽略 不 计 ; 当 小 于 0.2 或 大 于 0.8 时 ， 也 几乎 看 不 到 差异 。 
最 大 的 差异 发 生 在 概率 成 本 值 为 0.25 和 0. 75 时 ， 差 异 约 有 0. 04 ， 即 最 大 可 能 成 本 值 的 4% 。 


5.8 评估 数值 预测 


我 们 目前 所 讨论 的 评估 方法 都 是 有 关 分 类 预测 问题 ， 而 不 是 数值 预测 问题 。 要 使 用 独 
立 于 训练 集 之 外 的 测试 集 ， 使 用 旁 置 法 、 交 叉 验 证 法 等 来 做 性 能 评估 ， 这 个 基本 原理 同样 
适用 于 数值 预测 。 而 由 计算 误差 率 所 提供 的 基本 定性 方面 的 量度 已 不 再 合适 : 错误 不 再 是 
简单 的 有 或 没有 的 问题 ， 错 误会 呈现 出 不 同 的 大 小 。 

表 5-8 总 结 了 几 种 方法 ， 可 用 来 评估 数值 预测 成 功 与 否 。 对 测试 实例 的 预测 值 为 ps, 
Pz，…，pP。， 真 实 值 为 a,，a,，…，a,。 注 意 p, 在 这 里 与 上 一 节 中 提 到 的 有 非常 大 的 区 
别 : 上 节 中 是 指 预测 结果 为 第 i 类 的 概率 ， 这 里 是 指 对 第 i 个 测试 实例 的 预测 值 。 

表 5-8 数值 预测 的 性 能 度量 
"m (p -ai) ++ (ps -2,)? 


n 





方 均 根 误差 (piza) tt (Pa 7a,)* 


n 


平均 绝对 误差 [p -a | +++ | 可 -| 


n 





—— (p -ai) ++ (p, -a,)! 

相对 平方 误差 “ius Ee (aca 
(Piza)? +t (p,-a,)* 
(a, -a)? +--+ (a, -a)? 


相对 平方 根 误差 
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( 续 ) 
Ip -a | +--+ po] 
|a, -3 | +--+ |a, -a | 
n" Sm È (pi - p) (a; - a) Xo -p 
相关 系数 5" 其 中 Sm = 一 Sp = 一 
注 : “这 里 , a 是 训练 数据 的 平均 值 。 
** 这里， 五 是 测试 数据 的 平均 值 。 

均 方 误差 (mean-squared error) 是 最 常用 的 基本 度量 ， 有 时 再 取 其 平方 根 获得 与 预测 
值 一 致 的 尺度 。 在 许多 数学 方法 中 〈 如 第 4 章 中 讨论 的 线性 回归 ) 都 应 用 均 方 误差 ， 因 为 
在 数学 处 理 上 它 似乎 是 最 容易 方法 ， 正 如 数学 家 说 的 “循规蹈矩 ”"。 但 是 ， 这 里 我 们 把 它 
当做 一 种 性 能 量度 ， 而 所 有 的 性 能 量度 都 是 易于 计算 的 ， 因 此 均 方 误差 没有 什么 优势 。 问 
题 是 它 是 否 是 合适 的 度量 方法 呢 ? 

平均 绝对 误差 (mean absolute error) 是 另 一 种 可 供 选 择 的 方法 : 将 各 个 误差 的 大 小 取 
平均 值 ， 不 考虑 它们 的 正 负 符号 。 均 方 误差 趋向 夸大 离 群 值 ( 即 预测 误差 比 其 他 都 大 的 实 
例 ) 的 影响 ， 而 绝对 误差 没有 这 种 效果 ， 对 所 有 的 误差 ， 根 据 它 们 的 大 小 公平 对 待 。 

有 时 相对 误差 比 绝对 误差 值 更 重要 。 举 例 来 说 ， 如 果 10% 的 误差 率 无 论 对 于 预测 值 为 
500 而 其 中 误差 值 为 0， 还 是 对 于 预测 值 为 2 而 其 中 误差 值 为 0. 2 的 情况 下 都 是 同样 重要 
By, 那么 绝对 误差 就 毫 无 意义 了 ， 而 考虑 相对 误差 比较 适当 。 可 以 在 计算 均 方 误差 或 平均 
绝对 误差 中 使 用 相对 误差 来 将 这 个 问题 考虑 进去 。 

表 5-8 中 的 相对 平方 误差 〈relative squared error) 含义 有 些 特别 。 这 个 误差 是 由 预测 
器 和 另 一 个 简单 的 预测 器 相 比 较 而 得 到 的 。 这 里 所 指 的 简单 预测 器 只 是 训练 集 真 实数 值 的 
平均 值 a。 因 此 相对 平方 误差 是 将 该 预测 器 总 的 平方 误差 规范 化 ， 即 除 以 默认 预测 器 总 的 
平方 误差 。 而 相对 平方 根 误差 显然 是 相对 平方 误差 的 平方 根 。 

下 一 个 误差 度量 称 为 相对 绝对 误差 (relative absolute error) ， 其 实 只 是 将 总 的 绝对 误 
差 同 样 进行 规范 化 。 这 三 个 相对 误差 度量 都 是 使 用 预测 平均 值 的 简单 预测 器 误差 进行 规 
范 化 。 

表 5-8 中 的 最 后 一 个 度量 是 相关 系数 (correlation coefficient) ， 它 度量 真实 值 a 和 预测 
值 z 之 间 的 统计 相关 性 。 相 关系 数 从 完全 正 相 关 时 等 于 1， 到 完全 不 相关 时 等 于 0， 再 到 
完全 负 相 关 时 等 于 -1。 当 然 ， 对 一 个 合理 的 预测 方法 来 说 是 不 会 出 现 负 数 的 。 相 关 性 和 
其 他 的 度量 方法 相 比 有 些 不 同 ， 因 为 它 是 与 尺度 无 关 的 ， 如 果 你 得 到 一 组 具体 的 预测 值 ， 
当真 实 值 不 变 而 所 有 的 预测 值 都 乘 以 某 个 常数 因子 时 ， 它 的 相关 系数 是 不 会 改变 的 。 这 个 
常数 因子 在 分 子 Sm 的 每 一 项 中 出 现 ， 也 在 分 母 Sr 的 每 一 项 中 出 现 ， 因 此 可 以 相互 抵消 
(这 个 特性 在 相对 误差 中 不 成 立 ， 如 果 你 将 所 有 的 预测 值 都 乘 以 一 个 较 大 的 常数 ， 那 将 使 
预测 值 和 真实 值 的 差 值 明显 变化 ， 从 而 使 误差 百分率 也 明显 变化 ) 。 另 一 个 不 同 点 在 于 ， 
性 能 好 的 预测 器 其 相关 系数 较 大 ， 而 其 他 方法 度量 的 是 误差 ， 性 能 好 的 预测 器 度量 值 
较 小 。 

对 于 一 种 给 定 情形 ， 使 用 何 种 度量 比较 合适 ， 只 有 通过 分 析 各 种 应 用 本 身 来 决定 。 我 
们 试图 使 什么 达到 最 小 化 ? 不 同 误差 类 型 的 成 本 是 多 少 ? 这 些 通常 都 是 不 易 决 定 的。 平方 
误差 和 平方 根 误差 度量 对 大 差异 加 权 比 小 差异 重 得 多 ， 而 绝对 误差 则 不 是 这 样 。 取 平方 根 
( 方 均 根 误差 ) 的 方法 只 是 降低 量度 的 维度 使 其 与 要 预测 的 变量 一 致 。 相 对 误差 试图 均衡 





相对 绝对 误差 


> (a; -a)? 


n-l 





Sa 


n-1 n-1 
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输出 变量 基本 的 可 预知 性 或 不 可 预知 性 ， 如 果 预 测 值 相当 接近 平均 值 ， 那 么 认为 预测 较 
好 ， 相 对 误差 值 均衡 了 这 一 点 。 否 则 ， 如 果 误 差 在 一 种 情形 下 比 在 另 一 种 情形 下 大 很 多 ， 
也 许 是 因为 在 前 一 种 情形 下 数值 原本 变化 幅度 较 大 ， 因 此 更 难 预测 ， 而 并 非 是 预测 器 性 能 
变 差 了 。 

值得 庆幸 的 是 ， 在 大 多 数 实际 情形 中 ， 最 好 的 数值 预测 方法 无 论 使 用 何 种 误差 度量 方 
法 结果 都 是 最 好 的 。 例 如 ， 表 5-9 列 出 了 4 种 不 同 的 数值 预测 技术 在 某 个 数据 集 上 ， 采 用 
交叉 验证 法 的 测试 结果 。 根 据 S 种 误差 度量 的 计算 结果 ， 方 法 D 是 最 好 的 : 所 有 误差 度量 
的 值 都 是 最 小 的 ， 相 关系 数 最 大 。 方法 C 列 第 二 位 。 方法 A 和 B 的 性 能 是 有 争议 的 : È 
们 的 相关 系数 相等 ， 从 均 方 误差 和 相对 平方 误差 来 看 ，A 比 B 好 ; 但 从 绝对 误差 和 相对 绝 
对 误差 来 看 ， 结 论 正 相 反 。 这 个 差异 或 许 是 公式 中 的 平方 运算 对 离 群 值 进行 了 额外 的 加 权 
而 导致 的 。 


表 5-9 4 种 数值 预测 模型 的 性 能 度量 





A B C D 
方 均 根 误差 67.8 91.7 63.3 57.4 
平均 绝对 误差 41.3 38.5 33.4 29.2 
相对 平方 根 误差 42. 296 57. 296 39. 495 35. 896 
相对 绝对 误差 43. 196 40. 196 34. 896 30. 4% 
相关 系数 0. 88 0. 88 0. 89 0.91 


当 比 较 两 种 不 同 数值 预测 的 学 习 方法 时 ，5.5 节 中 所 述 的 方法 也 是 可 行 的。 差别 只 在 
进行 显著 性 检验 时 ， 成 功率 被 适当 的 性 能 度量 (如 方 均 根 误差 ) 所 替代 了 。 


5.9 最 小 描述 长 度 原理 


机 器 学 习 方 法 学 习 到 的 是 样本 所 描述 的 关于 某 个 领域 的 一 种 “理论 ”， 这 个 理论 是 有 
预测 力 的 ， 能 揭示 有 关 这 个 领域 的 新 的 事实 ， 换 个 说 法 就 是 ， 能 预测 未 知 实例 的 类 别 。 理 
论 是 一 个 相当 宏大 的 术语 : 这 里 我 们 只 是 指 一 个 有 预测 力 的 模型 ， 因 此 理论 有 可 能 由 决策 
树 或 一 系列 规则 所 组 成 ， 它 们 不 必 比 这 更 理论 化 。 

长 期 以 来 ， 科 学 界 一 贯 认为 在 其 他 条 件 相 同 的 情况 下 ， 简 单 的 理论 比 复杂 的 理论 更 可 
取 。 这 就 是 中 世纪 哲学 家 William Occam 提出 的 著名 的 奥 卡 姆 剃刀 (Occam's Razor) 。 奥 卡 
姆 剃刀 剃 去 了 理论 的 哲学 毛发 。 它 的 观点 是 : 最 好 的 科学 理论 应 该 是 最 简单 的 ， 但 能 解释 
所 有 的 事实 真相 。 正 如 爱 因 斯 坦 的 一 句 名 言 : “所 有 东西 都 要 尽 可 能 地 简单 化 ， 没 有 更 加 
简单 的 。” 当然， 在 “其 他 条 件 相 同 ” 的 背后 隐藏 着 许多 东西 ， 并 且 很 难 客观 地 评估 某 个 
具体 理论 是 否 真 的 能 “解释 ” 它 所 基于 的 所 有 事实 真相 ， 这 就 是 科学 界 的 争议 所 在 。 

在 机 器 学 习 中 ， 大 多 数理 论 都 有 误差 。 如 果 说 所 学 的 是 理论 ， 那 么 所 犯 的 错误 就 如 同 
是 这 个 理论 的 例外 。 一 种 确保 其 他 条 件 相同 的 方法 就 是 要 强调 当 判 定理 论 的 “简单 性 ” 
时 ， 例 外 所 包含 的 信息 是 理论 的 一 部 分 。 

想象 一 条 并 不 完美 的 理论 ， 它 有 几 个 例外 。 这 个 理论 不 能 解释 所 有 的 数据 ， 但 可 以 解 
释 大 部 分 。 我 们 所 要 做 的 就 是 将 例外 附加 在 理论 中 ， 清 楚 地 说 明 这 些 是 例外 。 新 的 理论 变 
KT: 这 是 代价 ， 非 常 公平 ， 是 为 它 没有 能 力 解 释 所 有 数据 而 付出 的 。 然 而 ， 与 全 面 而 准 
确 的 复杂 理论 相 比 ， 原 始 理论 的 简单 性 〈 称 为 简练 是 否 有 些 过 奖 了 ?) 也 许 足 以 弥补 它 不 
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能 解释 所 有 东西 的 缺陷 。 

例如 ，Kepler (JF3£39) 在 那个 时 代 提 出 的 三 条 行星 运行 规律 不 如 Copernicus ( 哥 白 
尼 ) 最 后 对 Ptolemaic ( 托 勒 密 ) 本 轮 理论 进行 修正 后 那样 ， 能 贴切 地 解释 所 有 已 知 数据 ， 
它们 的 优势 却 在 于 复杂 度 很 低 ， 这 便 弥补 了 它 的 些许 不 准确 。Kepler 很 清楚 简洁 理论 的 益 
处 ， 尽 管 这 个 理论 违背 了 他 自己 的 美学 观点 ， 它 是 基于 “椭圆 ”而 非 完 美的 圆周 运动 。 他 
曾 用 了 一 个 很 有 个 性 的 比喻 :“ 我 清除 了 宇宙 循环 和 旋转 中 最 脏 的 部 分 ， 在 我 身后 留 下 的 
只 是 一 车 垃圾 。” 

最 小 描述 长 度 (Mininum Description Length, MDL) 原理 是 指 对 于 一 堆 数 据 来 说 ， 最 
好 的 理论 是 最 小 化 理论 本 身 大 小 加 上 用 于 说 明 相 关 例 外 所 需 信息 量 ， 即 最 小 的 “一 车 垃 
圾 ”。 在 统计 估计 理论 中 ， 它 已 非常 成 功 地 应 用 在 各 种 参数 拟 合 上 。 在 机 器 学 习 中 应 用 如 
下 : 给 定 一 组 实例 ， 使 用 一 个 学 习 方法 从 这 些 实例 中 推出 一 条 理论 ， 一 条 很 简洁 的 理论 ， 
也 许 不 配 称 为 理论 。 这 里 借用 通信 的 比喻 ， 想 象 这 些 实例 正在 一 条 毫 无 干扰 的 信道 中 传输 
信息 ， 探 测 到 的 任何 相似 之 处 都 被 挖掘 出 来 概括 为 更 加 压缩 的 编码 。 根 据 MDL 原理 ， 最 
好 的 理论 是 使 传输 理论 本 身 所 需 的 位 数 以 及 实例 标号 的 位 数 之 和 最 小 的 理论 。 

现在 和 5.6 节 中 介绍 的 信息 损失 函数 联系 起 来 。 给 定理 论 预测 的 概率 值 ， 信 息 损失 函 
数 用 传输 实例 类 标号 所 需 的 位 数 来 衡量 误差 。 根 据 MDL 原理 ， 我 们 还 需要 加 入 经 过 适当 
编码 的 理论 “大 小 ”( 用 位 数 表示 )， 得 到 一 个 反映 理论 复杂 度 的 综合 数值 。MDL 原理 涉 
及 传输 样本 所 需 的 信息 ， 这 里 样本 是 指 理 论 形成 所 基于 的 样本 ， 即 训练 集 实 例 而 非 测试 集 
实例 。 这 时 过 度 拟 合 问题 将 避免 ， 因 为 相对 于 简单 理论 来 说 ， 由 于 过 度 拟 合 的 复杂 理论 需 
要 较 多 的 位 数 来 进行 编码 而 受到 惩罚 。 一 种 极端 是 一 个 非常 复杂 、 极 过 度 拟 合 的 理论 在 训 
练 集 上 没有 任何 错误 。 男 一 种 极端 是 一 个 非常 简单 的 理论 (没有 理论 )， 它 对 训练 集 的 传 
输 没 有 任何 帮助 。 存 在 于 这 两 者 之 间 的 是 中 等 复杂 度 的 理论 , .做 出 的 概率 预测 不 是 很 完 
美 ， 需 要 通过 传输 一 些 有 关 训 练 集 的 信息 来 纠正 。MDL 原理 提供 了 一 种 比较 所 有 可 能 理 
论 的 方法 ， 从 统一 的 观点 来 看 哪 一 种 是 最 好 的 。 我 们 找到 了 圣杯 : 一 种 只 用 训练 集 而 不 需 
要 独立 测试 集 的 评估 方案 。 但 是 魔鬼 隐藏 在 细节 之 中 ， 我 们 将 在 后 面 看 到 。 

假设 一 个 学 习 方法 基于 训练 集 卫 的 样本 得 出 某 一 理论 7， 理 论 编码 所 需要 的 位 数 为 
LIT] ( 工 代表 长 度 )。 我 们 只 对 正确 预测 类 标号 感 兴趣 ， 因 此 我 们 假设 代表 训练 集中 类 
标号 的 集合 。 给 定理 论 ， 训 练 集 本 身 编码 位 数 为 LLE|7T]。L[E |7] 实际 上 是 由 所 有 训练 
集成 员 信息 损失 函数 值 总 和 所 给 定 。 那 么 理论 和 训练 集 描述 长 度 总 和 为 

L[T] +L[E|T] 
MDL 原理 建议 采用 使 总 和 达到 最 小 值 的 理论 7。 

MDL 原理 和 基本 概率 理论 之 间 存 在 着 一 个 显著 的 联系 。 给 定 一 个 训练 集 五 ， 我 们 寻找 
“可 能 性 最 大 ”的 理论 7， 即 寻找 能 使 后 验 概 率 Pr[ T] E] (样本 出 现 后 的 概率 ) 最 大 化 的 
理论 。 与 在 4.2 节 中 所 见 的 贝 叶 斯 规则 的 条 件 概率 一 样 
.. Pr| E| T]Pr[ T] 


Pr[ T| E] Pr E] 





取 其 负 对 数 
— logPr[ T| E] = - logPr( E | T] — logPr[ T] + logPr[ E] 
求 概率 的 最 大 值 相当 于 求 其 负 对 数 的 最 小 值 。 现 在 〈 如 在 5.6 节 中 所 见 ) 编码 所 需 的 
位 数 就 是 取 其 概率 的 负 对 数 。 而 且 ， 最 后 一 项 log[Pr [E]] 只 取决 于 训练 集 而 与 学 习 方 
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法 无 关 。 因 此 ， 选 择 使 概率 Pr[ 7|1E] 达到 最 大 值 的 理论 等 价 于 选择 使 
L[T] +L[E |T] 

达到 最 小 值 的 理论 。 换 句 话 说， 就 是 等 价 于 MDL 原理 ! — 

考虑 训练 集 的 理论 后 验 概率 并 使 其 最 大 化 的 观点 与 MDL 原理 有 如 此 令 人 这 异 的 关联 ， 
更 增添 了 我 们 对 最 小 描述 长 度 原 理 的 信任 。 但 从 中 也 指出 了 在 实践 中 运用 MDL 的 问题 所 
在 。 直 接应 用 贝 叶 斯 理论 的 困难 在 于 如 何 得 到 理论 上 恰当 的 先 验 概率 分 布 Pr[ 7]。 在 MDL 
公式 中 ， 问 题 转 换 为 如 何 用 最 有 效 的 方法 将 理论 了 按 位 编码 。 编 码 有 很 多 方法 ， 编 码 和 解 
码 都 要 依赖 于 某 个 共同 的 先决 假设 ， 如 果 你 事先 知道 理论 将 采用 何 种 形式 ， 你 便 能 有 效 地 
利用 这 个 信息 进行 编码 。 究 竟 怎 样 对 理论 7 进行 编码 呢 ?” 困 难 随 着 对 问题 细节 的 深入 出 
现 了 。 

根据 了 对 五 进行 编码 得 到 LUE | T] 看 起 来 比较 直接 。 先 前 已 遇 到 过 信息 损失 函数 ， 但 
实际 上 当 你 对 训练 集中 的 每 个 成 员 依次 编码 时 ， 你 是 在 进行 一 种 序列 编码 而 不 是 对 数据 集 编 
码 。 没 有 必要 将 训练 集 按 一 定 的 顺序 传送 ， 考 虑 这 点 应 当 有 可 能 减少 所 需 的 位 数 。 常 用 的 近 
似 方法 是 简单 地 减 去 logn! (这 里 n 是 训练 集 E 所 含 的 成 员 数 量 ) ， 这 是 对 训练 集 按 某 特定 排 
列 进行 说 明 所 需 的 位 数 (这 个 值 对 所 有 的 理论 来 说 都 是 一 样 的 ， 实 际 上 并 不 影响 不 同 理论 之 
间 进 行 比较 ) 。 但 是 ， 人 们 可 以 想象 利用 个 体 误 差 频 率 来 减少 对 误差 编码 的 位 数 。 当 然 ， 误 
差 编 码 使 用 的 方法 越 精密 ， 对 理论 编码 的 精密 要 求 就 越 低 。 因 此 ， 判 断 一 条 理论 是 否 合 理 ， 
在 某 种 程度 上 取决 于 如 何 对 误差 进行 编码 。 注 重 细节 ， 并 非 想象 中 那么 简单 。 

如 本 节 的 开头 那样 ， 我 们 还 用 哲学 观点 来 结束 。 非 常 感谢 奥 卡 姆 剃刀 , 简洁 理论 优先 
于 复杂 理论 ， 站 在 哲学 角度 说 ， 这 是 个 公理 ， 而 不 是 能 由 基本 理论 证 明 出 来 的 。 这 是 我 们 
所 受 的 教育 以 及 所 处 时 代 的 产物 ， 可 以 看 成 是 不 证 自明 的 。 简 洁 为 先是 (或 者 也 许 是 ) X 
化 偏好 的 ， 而 非 绝 对 的 。 

希腊 哲学 家 Epicurus (喜好 美食 、 美 酒 ， 提 倡 享 受 世俗 快乐 ， 当 然 不 是 过 分 地 ) 提出 
了 几乎 相反 的 观点 。 他 的 多 种 解释 原理 (principle of multiple explanations) 建议 “如 果 多 
种 理论 都 与 数据 相符 ， 就 保留 这 些 理论 " ， 他 的 基本 观点 是 ， 如 果 几 种 解释 是 一 致 的 ， 那 
么 考虑 所 有 的 解释 也 许 能 得 到 更 精确 的 结论 。 总 之 ,武断 地 丢弃 任何 解释 都 是 不 科学 的 。 
这 种 观点 引出 了 基于 实例 的 学 习 方法 ,保留 所 有 的 证 据 提 供 预 测 ， 然 后 使 用 组 合 决策 的 方 
1K, WRR (bagging) 和 提升 (boosting) (将 在 第 8 章 中 讨论 ) ， 它 们 确实 是 依靠 组 合 多 
种 解释 来 获得 预测 能 力 的 。 


5.10 在 聚 类 方法 中 应 用 MDL 原理 


最 小 描述 长 度 原理 的 好 处 之 一 是 ， 它 与 其 他 的 评估 标准 不 同 ， 它 可 适用 于 各 种 完全 不 
同 的 情况 。 虽 然 如 我 们 先前 所 见 ，MDL 在 某 种 意义 上 与 贝 叶 斯 规则 一 样 ， 但 给 理论 设计 
一 套 更 编码 方案 等 价 于 要 赋予 一 个 先 验 概率 分 布 。 在 具体 实现 中 ， 编 码 方案 较 先 验 概率 更 
切实 、 容 易 一 些 。 为 了 说 明 这 一 点 ， 在 不 涉及 编码 细节 的 情况 下 ， 我 们 简单 地 介绍 MDL 
是 怎样 应 用 在 聚 类 方法 中 的 。 

聚 类 似乎 很 难 评估 ， 分 类 或 关联 学 习 都 有 一 个 客观 的 成 功 判 定 标准 ， 即 对 测试 数据 的 
预测 是 正确 还 是 错误 ， 而 聚 类 却 非 如 此 。 唯 一 可 行 的 评估 方法 似乎 是 要 看 学 习 的 结果 ， 即 
聚 类 结果 是 否 有 助 于 实际 应 用 环境 〈 值 得 一 提 的 是 ， 这 点 适用 于 评估 所 有 的 学 习 方法 ， 并 
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非 单 指 聚 类 方法 ) 。 

除 此 之 外 ， 聚 类 可 以 从 描述 长 度 的 观点 来 评估 。 假 设 一 种 聚 类 学 习 技 术 将 训练 集 五 分 
割 为 左 个 复 ， 如 果 这 些 复 是 原本 就 存在 的 ， 那 么 用 它们 对 五 进行 编码 可 能 会 很 有 效 。 最 好 
的 聚 类 方法 将 支持 最 有 效 的 编码 。 

按 给 定 的 聚 类 方案 ， 对 训练 集 忆 中 的 实例 进行 编码 的 一 种 方法 是 从 聚 类 中 心 〈 聚 类 中 所 
有 实例 的 每 个 属性 的 平均 值 ) 的 编码 开始 ， 然 后 将 五 中 的 每 个 实例 依据 它 的 属性 值 与 聚 类 中 
心 的 关系 ， 可 能 使 用 每 个 属性 值 与 中 心 点 属性 值 的 差 值 ， 传 送 它 属于 哪 一 类 (用 log,k 位 ) 。 
使 用 平均 值 或 差 值 ， 这 种 描述 方法 的 前 提 条 件 是 数值 属性 ， 同 时 也 提出 了 一 个 棘手 的 问题 ， 
那 就 是 怎样 有 效 地 对 数值 进行 编码 。 名 目 属性 可 以 用 类 似 的 方法 处 理 ， 每 个 聚 类 都 存在 一 个 
属性 值 概率 分 布 ， 不 同 的 聚 类 属性 值 概率 分 布 不 同 。 这 样 ， 编 码 问题 就 变 得 很 直接 了 : 将 属 
性 值 根据 相应 的 属性 概率 分 布 进行 编码 ， 这 是 一 种 标准 的 数据 压缩 操作 。 

如 果 数 据 呈 现 出 相当 明显 的 聚 类 ， 那 么 使 用 这 种 技术 将 使 描述 长 度 比 不 用 任何 聚 类 而 
简单 地 传输 训练 集 E 中 的 数据 要 短 。 但 是 ， 如 果 聚 类 效果 不 很 明显 ， 那 么 描述 长 度 非但 不 
能 减 小 ， 而 且 很 可 能 还 要 增加 。 这 时 ， 传 输 属 性 值 的 特定 聚 类 分 布 所 用 的 耗费 大 于 对 每 个 
训练 实例 按 相 应 的 聚 类 进行 编码 所 获得 的 益处 。 这 正 是 需要 应 用 精密 编码 技术 的 地 方 。 一 
且 聚 类 中 心 传输 完毕 ， 就 有 可 能 通过 与 相关 的 实例 合作 来 实现 自 适 应 地 传输 特定 聚 类 的 概 
率 分 布 : 实例 本 身 能 帮助 定义 概率 分 布 ， 概 率 分 布 又 帮助 定义 实例 。 这 里 我 们 不 再 深入 编 
WER, 重点 是 MDL 公式 如 何 合适 地 运用 ， 足 以 灵活 地 支持 聚 类 的 评估 ， 但 在 实践 中 要 
得 到 满意 的 效果 并 不 容易 。 


5. 11 补充 读物 


基本 的 统计 学 置信 和 度 检验 在 大 多 数 统计 学 教材 中 都 有 提 到 ， 此 外 还 提供 正 态 分 布 和 学 
生 分 布 表 (我们 参考 了 一 本 非常 优秀 的 教材 (Wild 和 Seber(1995) ) 。 如 果 你 能 有 机 会 得 
到 ， 我 们 极力 推荐 此 书 ) 。“Student” 是 统计 学 家 William Gosset 的 笔名 ， 他 于 1899 年 在 爱 
尔 兰 都 柏林 的 Guinness 酿酒 厂 任 化 学 家 ， 发 明了 上 检验， 用 以 处 理 酿 酒 业 中 使 用 少量 的 样 
品 测试 来 实行 质量 控制 。 纠 正 重复 取样 上 检验 是 由 Nadeau 和 Bengio(2003) 提出 的 。 交 叉 
验证 法 是 一 种 标准 的 统计 技术 ， 已 广泛 应 用 于 机 器 学 习 中 ， 并 被 Kohavi( 1995) 拿 来 与 自 
助 法 进行 比较 。 自 助 法 是 由 Efron 和 Tibshirani(1993) 完整 提出 的 。 

Kappa 统计 量 是 由 Cohen(1960) 提出 的 。Ting(2002) 研究 了 将 5.7 节 中 给 出 的 使 二 
类 问题 学 习 方法 具有 成 本 敏感 性 的 算法 ， 采 用 启发 式 的 方法 推广 到 多 类 问题 的 情形 。Berry 
和 Linoff(1997) 提出 了 提升 图 ，Egan(1975) 则 介绍 了 在 信号 检测 理论 中 使 用 ROC 分 析 ， 
这 项 工作 后 来 又 被 Swets(1988) 扩展 到 对 诊断 系统 的 可 视 化 和 行为 分 析 ， 还 被 应 用 于 药物 
学 上 (Beck 和 Schultz 1986) Provost 和 Fawcett(1997) 带 来 的 ROC 曲线 的 分 析 方 法 引起 
了 机 咒 学 习 及 数据 挖掘 界 的 注意 。Witten 等 (1999) 解释 了 召回 率 -精确 率 曲 线 在 信息 检 
索 系 统 中 的 应 用 ，van Rijsbergen(1979) 描述 了 下 度量 。Drummond 和 Holte(2000) 介绍 了 
成 本 曲线 并 对 它们 的 特性 做 了 研究 。 

最 短 描 述 长 度 原 理 是 由 Rissanen(1985) 系统 阐述 的 ，Koestler(1964) 详细 描述 了 开 
普 勒 的 三 个 行星 运动 规律 的 发 现 以 及 开 普 勒 本 人 对 此 发 现 的 怀疑 。 

Li 和 Vityani(1992) 引用 了 Asmis(1984) ， 提 及 了 Epicurus 的 多 种 解释 原理 。 
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实现 : 真正 的 机 器 学 习 方 案 





我 们 已 经 了 解 了 机 器 学 习 方法 的 几 种 基本 思想 ， 并 详细 研究 了 怎样 评估 它们 应 用 在 实 
际 数据 挖掘 问题 中 的 性 能 。 现 在 ， 我 们 做 好 了 充分 准备 来 了 解 真实 的 、 工 业 级 的 机 器 学 习 
算法 。 目 标 是 既 要 在 概念 上 ， 又 要 在 相当 多 的 技术 细节 上 解释 这 些 算法 ， 使 大 家 能 彻底 理 
解 算法 并 意识 到 实现 算法 过 程 中 出 现 的 关键 问题 。 

事实 上 ， 第 4 章 中 所 描述 的 最 简单 的 方法 和 广泛 应 用 于 实践 中 的 真实 算法 之 间 是 有 很 
大 差距 的 。 虽 然 原理 相同 ， 输 入 和 输出 一 一 知识 表达 方法 亦 相 同 ， 但 是 实践 中 的 算法 更 为 
复杂 。 主 要 是 因为 这 些 算法 必须 能 成 熟 、 明 智 地 处 理 真实 世界 中 的 问题 ， 如 数值 属性 、 缺 
失 值 以 及 最 富 挑 战 性 的 噪声 数据 。 为 了 了 解 各 种 不 同方 法 是 如 何 处 理 品 声 的 ， 我 们 需要 利 
用 在 第 5 章 中 学 习 到 的 一 些 统计 学 知识 。 

第 4 章 从 如 何 推理 出 基本 规则 开始 ， 分 析 统 计 模型 和 决策 树 。 然 后 转向 规则 归纳 ， 继 
而 是 关联 规则 、 线 性 模型 、 基 于 实例 学 习 的 最 近邻 方法 和 聚 类 。 本 章 将 详 述 所 有 这 些 
主题 。 

本 章 从 决策 树 归 纳 开 始 ， 继 而 对 C4. 5 系统 进行 了 完整 描述 。C4.5 系统 是 素 有 里 程 碑 
之 称 的 一 种 决策 树 程 序 ， 也 许 是 到 目前 为 止 在 实践 中 应 用 最 为 广泛 的 机 器 学 习 算 法 。 接 下 
来 ， 讨 论 决 策 规则 归纳 。 虽 然 思想 方法 简单 ， 但 在 实践 中 要 归纳 决策 规则 以 达到 能 与 顶尖 
水 准 的 决策 树 相 类 似 的 性 能 还 是 相当 困难 的 。 多 数 高 性 能 的 规则 归纳 器 先 找 出 一 个 初始 的 
规则 集 ， 然 后 对 规则 集 进行 精练 ， 精 练 则 是 通过 一 个 相当 复杂 的 优化 过 程 ， 丢 弃 或 调整 个 
体 规 则 使 规则 集 能 更 好 地 工作 。 本 章 还 阐述 了 有 噪声 的 情况 下 规则 学 习 所 基于 的 思想 ， 然 
后 介绍 使 用 局 部 决策 树 的 方法 ， 这 个 方法 已 被 证 明 能 达到 与 其 他 高 水 准 的 规则 学 习 器 同样 
好 的 性 能 ， 同 时 又 避免 使 用 一 些 复杂 而 特别 的 启发 式 方法 。 此 后 ， 再 简要 地 来 看 看 怎样 建 
立 3.4 节 中 介绍 的 包含 例外 的 规则 ， 然 后 介绍 了 用 于 关联 规则 学 习 的 快速 数据 结构 。 

支持 向 量 机 (support vector machine) 的 提出 再 次 引起 人 们 对 线性 模型 的 兴趣 。 支 持 
向 量 机 是 一 种 线性 模型 和 基于 实例 学 习 模型 的 混合 体 ， 它 从 每 个 类 中 挑选 了 很 少数 量 的 、 
称 为 支持 向 量 (support vector) 的 边界 实例 ， 然 后 建立 一 个 线性 判别 函数 ， 尽 可 能 地 将 各 
个 类 别 分 隔 开 。 这 种 基于 实例 的 方法 可 通过 在 函数 中 包含 另 一 部 分 非 线性 项 ， 从 而 超越 了 
线性 边界 的 限制 ， 使 形成 二 次 、 三 次 ， 甚 至 更 高 次 的 决策 边界 成 为 可 能 。 在 4.6 节 中 介绍 
的 感知 机 以 及 最 小 平方 回归 中 都 可 采用 同样 的 技术 来 实现 复杂 的 决策 边界 。 一 种 用 于 扩展 
感知 机 的 较 老 的 技术 就 是 将 各 个 单元 连接 起 来 形成 多 层 “ 神 经 网 络 ”"。 所 有 这 些 思想 都 在 
6.4 节 中 进行 了 叙述 。 

6.5 节 描 述 了 经 典 的 基于 实例 的 学 习 器 ， 发 展 了 在 4. 7 节 中 介绍 的 简单 的 最 近邻 方法 ， 
并 且 展 示 了 几 种 具有 显示 泛 化 能 力 的 更 为 有 效 的 方法 。 此 后 把 适用 于 数值 预测 的 线性 回归 
法 扩展 为 一 个 更 为 复杂 的 过 程 ， 从 而 形成 3. 3 节 中 介绍 的 树 的 表示 方式 。 然 后 继续 讨论 局 
部 加 权 回 归 ， 这 是 一 种 基于 实例 的 数值 预测 策略 。 接 下 来 讨论 贝 叶 斯 网 络 ， 一 种 非常 有 潜 
力 的 朴素 贝 叶 斯 方法 的 扩展 ， 它 能 处 理 存 在 内 部 依赖 关系 的 数据 集 ， 使 朴素 贝 叶 斯 方法 不 
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再 那么 “朴素 " 。 随 后 再 回 到 聚 类 方法 ， 回 顾 一 些 比 简单 的 天 均值 更 为 复杂 的 方法 ， 这 些 
方法 产生 层次 聚 类 和 概率 聚 类 。 我 们 还 会 讨论 半 监 督学 习 ， 它 可 以 看 成 是 聚 类 和 分 类 的 结 
合 。 最 后 我 们 讨论 比 4. 9 节 介 绍 的 更 高 级 的 多 实例 学 习 方 法 。 

由 于 本 章 所 涉及 内 容 的 特性 ， 所 以 它 与 本 书 的 其 他 章节 有 所 不 同 。 每 节 都 可 单独 阅 
读 ， 是 独立 的 ， 在 每 节 最 后 的 讨论 部 分 包含 各 自 的 补充 读物 。 


6.1 决策 树 


第 一 个 要 详细 介绍 的 机 器 学 习 方 法 一 一 C4.5 算法 ， 源 自 4.3 节 所 描述 的 用 于 建立 决 
策 树 的 简单 的 分 治 算法 。 在 它 用 于 解决 实际 问题 之 前 ， 需 要 在 几 个 方面 得 到 扩展 。 首 先 要 
考虑 如 何 处 理 数值 属性 ， 还 要 考虑 处 理 缺 失 值 的 问题 。 然 后 ， 还 需要 处 理 十 分 重要 的 决策 
树 剪 枝 问题 ， 因 为 用 分 治 算法 建立 的 决策 树 虽 然 在 训练 集 上 表现 良好 ， 但 常常 由 于 和 训练 
数据 过 度 拟 合 而 不 能 很 好 地 推广 到 独立 的 测试 集 上 。 其 次 要 考虑 如 何 将 决策 树 转换 为 分 类 
规则 ， 然 后 讨论 C4. 5 算法 本 身 提 供 的 选项 。 最 后 我 们 将 讨论 另 一 种 剪 枝 策略 ， 著 名 的 
CART 系统 实现 了 该 策略 ， 用 于 学 习 分 类 和 回归 树 。 


6. 1.1 数值 属性 


以 前 描述 过 的 方法 只 是 在 所 有 属性 都 是 名 目 属 性 时 才 有 效 ， 但 正如 我 们 所 了 解 的 ， 大 
多 数 真 正 的 数据 集 都 包含 一 些 数值 属性 。 将 算法 扩展 来 处 理 这 些 数 值 属性 并 不 太 难 。 对 于 
数值 属性 ， 将 其 分 为 两 类 或 者 说 分 裂 成 两 部 分 。 假 设 我 们 使 用 有 一 些 数值 属性 的 天 气 数据 
(R 1-3) ， 那 么 在 考虑 温度 作为 第 一 个 分 裂 的 属性 时 ， 涉 及 的 温度 值 如 下 : 
68 


64 65 69 70 71 72 75 80 81 83 85 
yes no yes yes yes no no yes no yes yes no 
yes yes 


重复 的 数值 芋 在 一 起 ， 共 有 11 个 可 能 的 断 点 ， 如 果断 点 不 允许 将 同属 一 个 类 的 项 目 分 开 ， 
那么 断 点 就 是 8 个 。 在 每 个 断 点 处 的 信息 增益 可 以 用 通常 的 方法 计算 。 例 如 ， 用 tempera- 
ture <71.5 进行 测试 , 产生 4 个 yes 和 2 个 no; 用 temperature >71.5 进行 测试 ， 则 产生 5 
^ yes 和 3 个 no， 所 以 这 个 测试 的 信息 值 是 : 

info([4,2],[5,3]) = (6/14) x info[4,2] + (8/14) x info[5,3] = 0.939 位 

虽说 采用 更 为 复杂 的 方法 可 能 会 获得 更 多 的 信息 ， 但 在 数值 区 间 一 半 的 地 方 设 定数 字 
阔 值 作为 概念 划分 界限 是 很 常见 的 做 法 。 例 如 ， 下 面 将 看 到 一 种 最 简单 的 基于 实例 学 习 方 
法 ， 它 将 概念 划分 界限 置 于 概念 空间 的 中 间 ， 人 们 还 建议 采用 其 他 一 些 不 只 是 包括 两 个 最 
近邻 样本 的 方法 。 

当 用 分 治 法 建立 决策 树 时 ， 一旦 选 定 第 一 个 要 分 裂 的 属性 ， 就 在 树 的 顶层 创建 一 个 结 
点 对 这 个 属性 进行 分 裂 ， 算 法 递归 地 在 每 个 子 结 点 上 继续 下 去 。 对 于 每 一 个 数值 属性 ， 从 
表面 上 看 ， 似 乎 必须 对 每 个 子 结 点 的 实例 子 集 重 新 按照 属性 值 进行 排序 ， 事 实 上 这 是 决策 
树 归纳 程序 通常 使 用 的 编写 方法 。 但 实际 上 并 没有 必要 重新 排序 ， 因 为 在 父 结 点 的 排序 可 
以 作为 每 一 个 子 结 点 的 排序 ， 形 成 一 种 快速 的 实现 方法 。 考 虑 天 气 数据 中 的 温度 属性 ， 它 
的 属性 值 排序 (这 次 包含 重复 的 值 ) 是 : 


64 65 68 69 70 71 72 72 7 75 80 81 83 85 
7 6 5 9 4 14 8 12 10 11 2 13 3 1 


每 个 温度 值 下 面 的 斜体 数字 是 拥有 这 个 温度 值 的 实例 的 序号 ， 因 此 实例 7 的 温度 值 








194 











为 64， 实 例 6 的 温度 值 为 65， 以 此 类 推 。 假 设 决定 在 顶层 对 属性 outlook 进行 分 裂 。 考 
虑 满足 outlook = sunny 的 子 结 点 ， 实 际 拥有 这 个 outlook 属性 值 的 实例 是 第 1、2、8、9 
和 11。 如 果 斜 体 的 顺序 和 样本 集 一 起 存储 (要 为 每 一 个 数值 属性 存储 一 个 不 同 的 顺 
序 ) ， 也 就 是 说 ， 实 例 7 指向 实例 6， 实 例 6 指向 实例 5， 实 例 5 指向 实例 9， 以 此 类 推 ， 
那么 要 依次 读 取 outlook = sunny 的 实例 就 是 一 件 简单 的 事情 了 。 所 需要 的 只 是 按照 所 示 
的 次 序 对 实例 进行 扫描 ， 检 查 每 个 实例 的 outlook 属性 值 并 对 拥有 适当 属性 值 的 实例 进 
行 记录 : 
9 8 11 2 1 

这 样 ， 根 据 每 个 数值 属性 ， 将 每 个 实例 子 集 和 实例 的 顺序 一 起 存储 ， 可 以 避免 重复 排序 。 
必须 在 一 开始 就 为 每 一 个 数值 属性 决定 排列 次 序 ， 以 后 就 不 再 需要 排序 了 。 

当 决 策 树 像 4. 3 节 所 述 的 那样 对 名 目 属性 进行 测试 时 ， 需 要 为 这 个 属性 的 每 一 个 可 能 
的 取 值 创 建 一 个 分 支 。 然 而 ， 我 们 已 经 将 数值 属性 限制 为 只 分 裂 成 两 部 分 ， 这 就 造成 了 数 
值 属性 和 名 目 属性 的 一 个 重大 不 同 : 为 某 个 名 目 属性 建立 分 支 后 ， 就 用 尽 了 属性 所 提供 的 
所 有 信息 ， 而 在 一 个 数值 属性 上 的 后 续 分 裂 还 会 产生 新 的 信息 。 一 个 名 目 属性 在 从 树 根 到 
叶子 结 点 的 路 径 中 只 能 被 测试 一 次 ， 而 一 个 数值 属性 则 能 被 测试 多 次 。 由 于 对 单个 数值 属 
性 的 测试 不 是 集中 在 一 起 而 是 分 散 于 路 径 上 ， 所 以 这 会 造成 树 的 凌乱 而 难以 理解 。 另 一 种 
方法 ， 相 对 较 难 以 实施 但 可 以 创建 更 加 易 读 的 树 ， 就 是 允许 对 数值 属性 进行 多 重 测 试 ， 对 
树 中 的 单个 结 点 上 进行 多 个 不 同 常量 的 测试 。 一 个 更 为 简单 但 效果 稍 差 的 解决 方法 是 如 
7.2 节 将 要 讨论 的 对 属性 值 进行 预先 离散 化 。 


6.1.2 缺失 值 


对 决策 树 构建 算法 的 下 一 个 改进 是 关于 缺失 值 问题 的 处 理 。 缺 失 值 是 现实 生活 中 的 数 
据 集 所 无 法 避免 的 。 正 如 第 2 章 (2.4 45) 所 解释 的 ， 一 种 办 法 是 把 它们 当做 属性 的 另 一 
个 可 能 值 来 处 理 。 当 属性 值 缺失 在 某 种 程度 上 是 有 意义 的 ， 这 种 办 法 就 是 合适 的 。 这 样 不 
需要 再 采取 进一步 的 处 理 。 但 如 果 某 个 实例 缺少 属性 值 没 有 特别 的 含义 ， 就 需要 一 个 更 精 
细 的 解决 方法 。 简 单 地 忽略 所 有 含有 缺失 值 的 实例 当然 是 很 诱 人 的 办 法 ,但 这 种 解决 办 法 
过 于 苛刻 而 不 太 可 行 。 有 缺失 值 的 实例 往往 提供 了 相当 多 的 信息 。 有 时 ,含有 缺失 值 的 属 
性 在 决策 中 并 不 起 作用 ， 因 此 这 些 实例 和 其 他 实例 一 样 好 。 

一 个 问题 就 是 ， 当 有 一 些 要 测试 的 属性 有 缺失 值 时 ， 如 何 将 决策 树 应 用 到 这 个 实例 
中 。 在 3.3 节 中 示范 了 一 个 解决 方法 ， 想 象 将 这 个 实例 分 成 多 个 部 分 ， 采 用 数值 加 权 方 
案 ， 将 各 个 部 分 按 比 例 分 配 到 各 个 分 支 上 ， 这 个 比例 是 指 各 个 分 支 上 训练 实例 数量 的 比 
例 。 最 终 实例 的 各 个 部 分 都 会 到 达 某 一 个 叶子 结 点 ， 最 终 的 决策 必须 根据 事先 确定 好 的 权 
重 将 各 个 叶子 结 点 的 决策 重新 组 合 得 到 。 在 4. 3 节 中 描述 的 信息 增益 和 增益 率 的 计算 同样 
可 以 应 用 于 部 分 实例 。 使 用 权 值 代替 整数 累计 来 计算 这 两 个 增益 值 。 

另 一 个 问题 就 是 ， 一 旦 分 型 属性 选 定 后 ， 应 该 如 何 分 裂 训练 集 ， 从 而 在 每 个 子 结 点 上 
递归 运行 决策 树 的 形成 过 程 。 需 要 运用 同样 的 加 权 过 程 。 相 关 的 属性 值 出 现 缺失 的 实例 从 
概念 上 分 裂 成 几 个 部 分 ， 每 个 分 支 含 一 个 部 分 ， 分 裂 比例 就 是 分 配 到 各 个 分 支 上 的 已 知 实 
例 的 比例 。 这 个 实例 的 各 个 部 分 在 下 层 结 点 为 决策 做 贡献 ， 同 样 可 用 一 般 的 信息 增益 计算 
方法 ， 只 是 它们 是 加 了 权 值 的 。 当 然 ， 如 果 其 他 属性 的 值 也 有 缺失 ,那么 在 下 层 结 点 上 可 
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能 还 需要 进一步 分 裂 。 
6.1.3 剪 枝 


完全 展开 的 决策 树 经 常 包含 不 必要 的 结构 ， 建 议 在 实际 应 用 决策 树 之 前 ， 先 对 它们 进 
行 简化 。 现 在 就 来 学 习 如 何 对 决策 树 剪 枝 。 

先 建 立 一 个 完整 的 决策 树 ， 然 后 对 其 剪 枝 ， 我 们 采取 的 是 后 剪 枝 (postpruning) 策略 
(有 时 称 为 反 向 剪 枝 (backward pruning) ) 而 不 是 先 剪 枝 (prepruning) (或 称 正 向 剪 枝 
(forward pruning) ) 策略 。 先 剪 枝 需要 在 建立 树 的 过 程 中 决定 何 时 停止 建立 子 树 ， 这 是 非 
常 吸引 人 的 一 面 ， 因 为 这 能 避免 建立 某 些 子 树 所 需 的 全 部 工作 ， 而 这 些 子 树 将 来 是 要 被 含 
弃 的 。 当 然 ， 后 剪 枝 确实 也 有 一 些 优势 。 例 如 ， 两 个 属性 单独 不 能 有 所 贡献 ， 但 两 者 结合 
起 来 预测 能 力 却 很 强 ， 一 种 两 个 属性 的 正确 结合 能 提供 很 强 的 信息 而 两 个 属性 单独 运用 则 
不 能 的 、 所 谓 密 码 锁 效 果 。 大 多 数 决策 树 采 用 后 剪 枝 ， 然 而 当 特 别 关 注 运 行 时 间 时 ， 也 可 
以 考虑 先 剪 枝 。 

在 后 剪 枝 过 程 中 要 考虑 两 种 完全 不 同 的 操作 : 子 树 置换 (subtree replacement) 和 子 树 
424 (subtree raising) 。 在 每 一 个 结 点 上 ， 一 个 学 习 方 案 也 许 要 决定 是 采取 子 树 置换 还 是 
子 树 提升 ， 或 者 让 子 树 和 原先 一 样 ， 不 进行 剪 枝 。 首 先 来 观察 子 树 置换 ， 它 是 主要 的 剪 枝 
操作 。 它 的 想法 是 选择 一 些 子 树 并 用 单个 叶子 结 点 来 代替 它们 。 例 如 ， 图 1-3a 中 包括 2 
个 内 部 结 点 和 4 个 叶子 结 点 的 整个 子 树 ， 被 单个 叶子 结 点 bad 所 替换 。 如 果 原 先 的 决策 树 
是 由 前 面 所 述 的 决策 树 算 法 建立 的 ， 当 然 会 引起 在 训练 集 上 的 准确 率 下 降 ， 因 为 算法 要 继 
续 创 建 决 策 树 直 至 所 有 的 叶子 结 点 都 是 纯 的 〈 或 者 说 ， 直 至 所 有 的 属性 都 被 测试 过 ) 。 不 
过 这 也 许 会 提高 在 独立 选 出 的 测试 集 上 的 准确 率 。 

子 树 置换 是 从 叶子 结 点 向 树 根 方 向 进行 处 理 的 。 在 图 1-3 的 例子 中 ， 整 个 子 树 不 会 马 
上 被 置换 成 如 图 1-3a 所 示 。 首 先 ， 要 考虑 将 health plan contribution 子 树 上 的 3 个 子 结 点 替 
换 成 单个 叶子 结 点 。 假 设 做 出 要 进行 更 换 的 决定 〈 马 上 会 讨论 如 何 做 出 这 个 决定 ) 。 然 后 ， 
继续 从 叶子 结 点 开始 工作 ， 考 虑 将 现在 只 有 两 个 子 结 点 的 working hours per week 子 树 换 成 
单个 叶子 结 点 。 在 图 1-3 的 例子 中 ， 这 个 替换 实际 上 也 已 完成 ， 图 1-3a 中 的 整个 子 树 被 蔡 
换 成 了 标 为 bad 的 单个 叶子 结 点 。 最 后 ， 考 虑 用 单个 叶子 结 点 来 置换 wage increase 1st year 
子 树 的 两 个 子 结 点 。 在 这 个 例子 中 这 个 决定 未 能 实现 ， 因 此 决策 树 保持 不 变 ， 如 图 1-3a 
所 示 。 后 面 将 要 简要 讨论 这 些 决 定 实际 上 是 如 何 做 出 的 。 

第 二 种 剪 枝 操作 ， 子 树 提升 ， 更 复杂 ， 也 不 是 很 清楚 是 否 有 必要 。 这 里 描述 它 ， 因 为 
它 应 用 于 有 影响 力 的 CA. 5 决策 树 系 统 中 。 子 树 提升 在 图 1-3 例子 中 没有 发 生 ， 所 以 用 
图 6-1 所 示 的 虚拟 例子 来 解释 。 这 里 ， 考 虑 对 图 6-1a 所 示 的 树 进行 剪 枝 ， 剪 枝 结果 显示 
在 图 6-1b 中 。 整 个 自 C 以 下 的 子 树 被 提升 上 来 置换 子 树 B。 注 意 ， 虽 说 这 里 的 B 和 C 的 
子 结 点 是 叶子 结 点 ， 但 它们 也 可 以 是 完整 的 子 树 。 当 然 ， 如 果 要 进行 提升 操作 ， 有 必要 将 
标 有 4 和 5 的 结 点 处 的 样本 重新 划分 到 标 为 C 的 新 子 树 中 。 这 就 是 为 何 那个 结 点 的 子 结 点 
被 标 为 : 1'. 2' 和 3 ' 一 一 表明 它们 并 不 与 原来 的 子 结 点 1、2 和 3 相同 ， 而 是 包含 了 原本 
被 4 和 5 涵盖 的 样本 。 

子 树 提升 可 能 是 一 个 耗 时 的 操作 。 在 实际 的 实现 中 ， 它 被 限制 在 只 能 提升 最 为 普及 的 
分 支 。 就 是 说 ， 由 于 从 B 至 C 的 分 支 比 从 B 至 结 点 4 或 者 B 至 结 点 5 的 分 支 有 更 多 的 训练 
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样本 ， 所 以 考虑 图 6-1 中 的 提升 。 否 则 ， 如 果 ( 举 个 例子 ) 结 点 4 是 B 的 主要 子 结 点 ， 那 
么 将 考虑 提升 节点 4 代替 B， 并 重新 对 所 有 C 以 下 的 样本 以 及 结 点 5 的 样本 进行 分 类 以 加 
人 到 新 的 结 点 。 





a) b) 
图 6-1 子 树 提升 的 例子 ， 结 点 C“ 提 升 ”并 包含 结 点 B 


6. 1.4 估计 误差 率 


两 种 剪 枝 操作 就 讨论 到 此 。 现 在 必须 来 解决 怎样 决定 是 否 要 用 单个 叶子 结 点 来 替换 一 个 
内 部 结 点 ( 子 树 置换 )， 或 者 是 否 要 用 位 于 一 个 内 部 结 点 下 面 的 某 个 结 点 来 替换 它 ( 子 树 提 
Ft) 的 问题 。 为 了 能 做 出 理性 的 决定 ， 必 须 用 一 个 独立 的 测试 集 在 某 个 结 点 处 进行 期 望 误差 
率 估计 。 既 要 在 内 部 结 点 处 又 要 在 叶子 结 点 处 进行 误差 估计 。 如 果 有 了 这 样 的 估计 值 ， 只 要 
简单 地 比较 子 树 的 估计 误差 和 其 要 替换 的 子 树 的 估计 误差 ， 就 能 明确 地 决定 是 否 要 对 某 个 子 
树 进行 置换 或 提升 操作 。 在 对 预备 提升 的 子 树 进 行 误差 估计 之 前 ， 当 前 结 点 的 兄弟 结 点 所 含 
的 样本 ， 即 图 6-1 中 结 点 4 和 结 点 5 所 含 样本 必须 暂时 重新 分 类 到 被 提升 的 树 中 。 

用 在 训练 集 上 的 误差 作为 误差 估计 是 无 效 的 ， 将 导致 不 会 有 任何 前 枝 ， 因 为 树 是 特 为 
训练 集 建立 的 。 一 种 取得 误差 估计 的 办 法 是 采用 标准 验证 技术 ,保留 部 分 原始 数据 作为 一 
个 独立 的 测试 集 来 估计 每 个 结 点 上 的 误差 。 这 称 为 减少 -误差 (reduced-error) 剪 枝 。 它 
的 缺点 是 决策 树 是 在 较 少 的 数据 上 建立 的 。 

另 一 个 方法 是 试图 以 训练 集 本 身 为 基础 来 估计 误差 。 这 正 是 C4. 5 算法 中 所 实现 的 ， 
这 里 介绍 这 个 方法 。 这 是 一 种 基于 某 些 统计 推理 的 启发 式 方 法 ， 但 这 个 统计 基础 有 点 薄弱 
并 且 比 较 特 殊 。 然 而 ， 在 实际 运用 中 似乎 效果 良好 。 它 的 想法 是 考虑 到 达 每 个 结 点 的 实例 
集 ， 并 想象 选择 多 数 类 来 代表 这 个 结 点 。 这 便 能 提供 一 个 在 实例 总 数 N 中 所 占 的 “错误 ” 
数量 。 现 在 想象 在 结 点 上 的 错误 的 真实 可 能 性 是 g， 并 且 NV 个 样本 是 由 参数 为 g 的 伯 努 
利 过 程 所 产生 的 ,，E 就 是 错误 数量 。 

这 个 情形 如 同 在 5. 2 节 中 讨论 旁 置 法 时 所 考虑 的 情形 ， 已 知 某 个 观察 到 的 成 功率 ， 计 
算 真 实 成 功率 p 的 置信 区 间 。 有 两 点 不 同 。 第 一 个 是 微不足道 的 : 这 里 讨论 的 是 误差 率 g 
而 非 成 功率 p; 它们 之 间 存 在 简单 的 关系 p +g =1。 第 二 个 比较 重要 : xx HUBS E AN RK 
自 训 练 集 ， 而 在 5. 2 节 中 考虑 的 是 使 用 独立 的 测试 集 。 由 于 这 个 不 同 ， 需 要 使 用 置信 和 度 上 
限 来 为 误差 率 做 一 个 较为 翡 观 的 估计 ， 而 不 是 给 出 估计 值 置信 区 间 。 


Y 


F 
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这 里 用 到 的 数学 知识 是 和 前 面 一 样 的 。 给 定 某 个 特定 的 置信 和 度 c (CA. 5 所 使 用 的 默认 
值 c =25% ) ， 找 出 它 的 置信 界限 *， 使 得 
Pr [一 上 三 2 一 > z] =c 
Vq(1 - q)/N 
这 里 N 是 实例 的 数量 , /= E/N 是 观察 到 的 误差 率 ，g 是 真实 误差 率 。 和 前 面 一 样 ， 这 
将 得 到 9 的 一 个 置信 和 度 上 限 。 现 在 就 用 这 个 置信 和 度 上 限 为 在 结 点 上 的 误差 率 e 做 一 个 
(悲观 的 ) 估计 : 





z7 £ rad 2 
IN NN O NIAN 
e = E 
uz 


注意 ， 在 分 子 的 平方 根 前 面 用 + 号 来 获得 置信 和 度 上 限 。 这 里 ，z 是 对 应 于 置信 度 e 的 标 
准 差 ， 当 c=25% 时 ,z=0.69。 
要 知道 在 实际 中 怎样 计算 ， 再 来 看 看 图 1-3 的 劳资 协商 决策 树 ， 图 6-2 对 其 中 特别 的 


部 分 重新 展示 ， 添 加 了 到 达 叶 子 结 点 的 训练 实例 的 数 Ke 
wage increase lst year 


量 。 利 用 前 面 的 公式 ， 置 信和 度 设 为 25%， 那么 z= 
>2.5 









0. 69。 考 虑 底层 左边 的 叶子 结 点 , =2,N =6， 因 此 
f=0.33。 将 这 些 数据 代入 公式 ,误差 置信 和 度 上 限 计 
算出 为 e=0.47。 这 意味 着 将 要 用 47% 这 个 悲观 的 误差 
估计 来 蔡 代 在 这 个 结 点 训练 集 上 得 到 的 33% 的 误差 率 。 
这 确实 是 翡 观 的 估计 ， 对 于 一 个 二 类 问题 ， 若 误差 率 
高 于 50% 便 是 很 大 的 失误 。 与 这 个 结 点 相 邻 的 叶子 结 
点 =1, N=2， 由 于 计算 出 误差 置信 和 度 上 限 为 e = 
0.72， 情 况 就 显得 更 糟糕 了 。 第 三 个 叶子 结 点 e 的 值 和 
第 一 个 是 相同 的 。 下 一 步 是 将 这 三 个 叶子 结 点 的 误差 
估计 根据 它们 各 自 所 覆盖 的 实例 数量 的 比率 6:2:6 进行 
组 合 ， 得 到 组 合 误差 估计 值 0. 51。 现 在 来 考虑 它们 的 
父 结 点 health plan contribution 。 这 个 结 点 覆盖 了 9 个 类 
别 为 bad 的 实例 和 5 个 类 别 为 good 的 实例 ， 因 此 在 训 
练 集 上 的 误差 率 是 /=5/14。 根 据 这 些 数据 ， 按 照 前 面 的 公式 计算 得 到 一 个 悲观 的 误差 估计 
e=0.46。 由 于 这 个 值 小 于 三 个 子 结 点 的 组 合 误差 估计 ， 因 此 子 结 点 就 被 剪 掉 了 。 

下 一 步 处 理 working hours per week 结 点 ， 它 现在 含有 两 个 都 为 叶子 的 子 结 点 。 第 
一 个 子 结 点 =1、N =2， 它 的 误差 估计 为 e=0.72,， 第 二 个 正 是 先前 讨论 的 e=0. 46。 
把 它们 按照 比率 2: 14 组 合 起 来 ， 得 到 一 个 比 working hours 结 点 的 误差 估计 更 高 的 值 ， 
因此 子 树 也 被 剪 掉 ， 用 一 个 叶子 结 点 来 代替 。 

从 这 些 样 本 中 获得 的 误差 估计 值 需要 有 所 保留 ， 因 为 这 种 估计 是 一 种 启发 式 估计 
并 且 是 建立 在 多 个 弱 假 设 上 : 置信 和 度 上 限 的 使 用 、 正 态 分 布 假设 以 及 采用 在 训练 集 上 
取得 的 统计 数据 这 个 事实 。 但 是 不 管 怎样 ， 误 差 公 式 在 性 质 上 是 正确 的 ， 而 且 这 个 方 
法 似乎 在 实践 运用 中 效果 良好 。 如 果 有 必要 ， 可 以 对 所 应 用 的 置信 和 度 水 平 25% 进行 修 
正 以 取得 更 满意 的 结果 。 





图 6-2 劳资 协商 决策 树 的 剪 枝 
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6.1.5 决策 树 归纳 的 复杂 度 


我 们 已 经 学 习 了 如 何 完 成 剪 枝 操 作 ， 了 解 了 决策 树 归 纳 法 的 所 有 核心 部 分 。 现 在 思考 
决策 树 归 纳 算法 的 计算 复杂 度 。 使 用 标准 符号 O(n) 表示 一 个 随 n REKE, O(n’) 
是 随 n 的 二 次 方 增长 的 量 ， 以 此 类 推 。 

假设 训练 集 拥 有 个 实例 和 m 个 属性 。 我 们 需要 对 树 的 大 小 做 一 个 假设 ， 假 设 树 的 深 
度 大 约 为 logn， 即 O(logn) 。 这 是 一 个 含有 个 叶子 结 点 的 树 的 标准 增长 率 ， 假 设 树 保 持 
“浓密 ”生长 ， 没 有 退化 成 非常 次 且 长 丝 状 的 分 支 。 注 意 这 里 假设 大 多 数 的 实例 都 是 不 同 
的 ， 也 就 相当 于 m 个 属性 能 提供 足够 多 的 测试 ， 以 区 分 每 个 实例 。 例 如 ， 如 果 只 存在 少 
几 个 二 元 属性 ， 那 么 它们 只 允许 有 这 么 多 的 不 同 实例 ， 树 的 生长 不 可 能 超出 某 个 限度 ， 表 
现 这 种 极限 情况 的 分 析 是 毫 无 意义 的 。 

建树 的 计算 成 本 首先 是 O(mnlogn) 。 考 虑 一 个 属性 在 树 的 所 有 结 点 上 所 做 的 工作 量 。 


. 当然 不 必 在 每 一 个 结 点 上 考虑 所 有 的 实例 。 但 在 树 的 每 一 层 ， 最 坏 的 情况 下 必须 考虑 含有 


n 个 实例 的 整个 实例 集 。 由 于 树 有 logn 个 不 同 的 层 ， 所 以 处 理 一 个 属性 所 需要 的 工作 量 是 
0(nlogn)。 在 每 个 结 点 上 的 所 有 属性 都 要 被 考虑 ， 因 此 总 的 工作 量 是 0( mnlogn)。 

这 个 推理 有 几 个 前 提 假 设 。 如 果 一 些 属性 是 数值 型 的 ， 它 们 必须 是 经 过 排序 的 ， 一旦 
最 初 的 排序 完成 后 ， 如 运用 了 适当 的 算法 (9.6.1 节 ) ， 就 没有 必要 在 树 的 每 一 层 进行 再 
次 排序 。 最 初 的 排序 操作 对 于 每 个 属性 工作 量 为 0(nlogn)， 共 有 m 个 属性 : 因此 前 面 的 
复杂 度数 值 没有 变化 。 如 果 属 性 是 名 目 属 性 ， 没 有 必要 在 每 个 结 点 上 考虑 所 有 属性 ， 因 为 
在 树 的 上 部 已 用 过 的 属性 就 不 能 再 用 了 。 然 而 ， 如 果 是 数值 属性 ， 属 性 可 以 再 次 应 用 ， 因 
此 必须 在 树 的 每 一 层 考虑 所 有 的 属性 。 

下 一 步 考 虑 子 树 置换 的 剪 枝 操 作 。 首 先 对 于 每 个 树 结 点 都 进行 误差 估计 。 假 设 使 用 了 
适当 的 累计 操作 ， 它 就 是 与 树 所 含 的 结 点 数 存 在 线性 关系 。 对 每 个 结 点 都 要 做 置换 考虑 。 
树 最 多 含有 个 叶子 结 点 ， 每 个 结 点 含 一 个 实例 。 如 果 是 二 义 树 ， 每 个 属性 都 是 数值 型 的 
或 者 是 二 元 属性 ， 那 么 就 有 2n -1 个 结 点 。 多 路 分 支 只 会 减少 内 部 结 点 数 。 因 此 子 树 置换 
操作 复杂 度 是 O(z) 。 

最 后 ， 子 树 提 升 和 子 树 置 换 的 复杂 度 基 本 一 致 。 但 由 于 在 提升 操作 中 需要 对 实例 进行 重 
新 分 类 而 产生 了 一 个 额外 成 本 。 在 整个 过 程 中 ， 对 于 每 个 实例 ， 也 许 需要 在 它 的 叶子 结 点 和 
根 结 点 之 间 的 每 个 结 点 进行 重新 分 类 ， 即 0(logn) 次 。 那 么 重新 分 类 总 次 数 为 0(nlogn)。 并 
且 重 新 分 类 并 非 是 单个 操作 : 在 靠近 根 结 点 进行 时 ， 需 要 O(logn) 次 操作 ， 在 平均 高 度 处 进 
行 时 则 需要 这 个 数 的 一 半 。 这 样 ， 总 的 子 树 提 升 的 复杂 度 是 : O(n(logn)?). 

这 样 ， 考 虑 所 有 的 操作 ， 完 整 的 决策 树 归 纳 算法 复杂 度 是 : 

O(mnlogn) + O(n(logn)?) 


6.1.6 从 决策 树 到 规则 


正如 3.4 节 中 提 到 的 ， 通 过 为 每 个 叶子 结 点 建立 一 个 规则 ， 把 从 根 结 点 到 叶子 结 点 的 路 径 
中 过 到 的 所 有 测试 条 件 联合 起 来 ， 这 使 得 从 决策 树 上 直接 读 出 一 组 规则 集成 为 可 能 。 这 样 创建 
的 规则 是 清楚 明确 的 ， 以 什么 顺序 执行 无 关 紧 要 。 但 是 这 样 的 规则 会 导致 某 些 不 必要 的 复杂 性 。 
上 面 讲 到 的 误差 率 估计 提供 的 正 是 对 规则 剪 枝 所 需要 的 机 制 。 对 于 某 一 个 具体 的 规 


HOF FM: 真正 的 机 器 学 习 方 案 141 





则 ， 考 虑 将 它 的 单个 条 件 暂 时 去 除 ， 找 出 规则 现在 所 涵盖 的 训练 实例 ， 用 这 些 实例 计算 出 
新 规则 的 误差 率 的 悲观 估计 ， 并 将 此 与 原来 规则 的 误差 率 的 悲观 估计 相 比 较 。 如 果 新 规则 
的 结果 比较 好 ， 则 删除 这 个 条 件 ， 然 后 继续 找 其 他 条 件 进行 删除 。 当 删除 任何 条 件 都 不 再 
能 改善 规则 时 ， 则 保持 规则 不 变 。 一 旦 所 有 的 规则 都 用 这 种 方法 剪 校 过 了 ， 有 必要 看 看 是 
否 有 重复 的 规则 ， 应 把 它们 从 规则 集 里 去 除 。 

这 是 一 个 用 于 探测 规则 中 宛 余 条 件 的 贪心 方法 ， 不 能 保证 最 好 的 条 件 组 合 是 否 会 被 删 
除 。 一 种 改进 是 考虑 所 有 的 条 件 子 集 ， 但 是 这 样 的 成 本 太 高 了 。 另 一 种 解决 办 法 是 采用 优 
化 技术 ， 如 模拟 退火 或 者 遗传 算法 来 选择 这 个 规则 的 最 佳 版 本 。 然 而 ， 这 个 简单 的 贪心 方 
法 似乎 可 以 产生 相当 好 的 规则 集 。 

即使 采用 贪心 方法 ， 计 算 成 本 也 是 一 个 问题 。 对 于 每 个 条 件 ， 它 们 都 是 候选 的 被 删除 对 
象 ， 规 则 的 效果 必须 在 所 有 的 训练 实例 上 进行 重新 评估 。 这 意味 着 从 树 中 形成 规则 会 是 很 慢 
的 过 程 。 下 一 节 要 介绍 一 种 较 快 的 方法 ， 它 是 直接 产生 分 类 规则 而 不 用 首先 形成 决策 树 。 


6.1.7 C4. 5: 选择 和 选项 


我 们 以 讨论 标志 性 的 决策 树 程序 C4. 5 以 及 其 后 继 者 C5. 0 在 实践 中 的 一 些 应 用 来 结束 
决策 树 的 学 习 。 它 们 是 由 本 Ross Quinlan 从 20 世纪 70 年 代 末 期 开始 ， 用 20 年 的 时 间 设 计 
的 。20 世纪 90 年 代 初 期 ， 关 于 完整 C4. 5 描述 是 一 本 优秀 的 可 读 性 很 强 的 书 〈Quinlan ， 
1993), ， 附 有 全 部 源 代码 。 更 新 的 版 本 C5.0 已 经 商业 化 。 它 的 决策 树 归 纳 基 本 和 C4. 5 相 
同 ,， 测 试 结果 略 有 不 同 ， 但 改进 不 明显 。 虽 然 未 在 公开 文献 上 发 表 , 但 它 的 规则 产生 迅速 
并 显然 运用 了 不 同 的 技术 。 

C4. 5 本 质 上 就 如 上 节 中 所 描述 的 。 默 认 置 信和 度 设 定 为 25% 并 在 绝 大 多 数 场 合 运行 良好 。 
如 果 在 测试 集 上 决策 树 的 实际 误差 率 比 估计 的 高 许多 ， 那么 也 许 这 个 置信 和 度 可 以 设置 更 低 一 
些 ， 从 而 导致 更 “剧烈 ”的 剪 枝 。 男 外 还 有 一 个 重要 参数 ， 它 的 作用 是 消除 那些 几乎 在 所 有 
训练 实例 上 结果 都 相同 的 测试 。 这 类 测试 经 常 是 没有 什么 用 的 。 因 此 ， 测 试 不 会 加 入 到 决策 
树 中 ， 除 非 它们 至 少 能 产生 两 个 结果 ， 即 覆盖 实例 数量 达 某 个 最 小 值 。 这 个 最 小 值 的 默认 值 
是 2， 但 这 个 数 是 可 以 控制 的 ， 对 于 含 许 多 噪声 数据 的 情况 也 许 应 该 提高 这 个 值 。 

C4. 5 中 应 用 的 另 一 个 启发 式 规则 是 对 于 数值 属性 的 分 裂 过 程 ， 只 有 当 数 值 属性 至 少 
对 当前 结 点 的 每 个 类 别 分 割 10% 或 者 25 个 实例 时 〈 取 两 者 的 较 小 值 ， 但 是 在 默认 情况 下 
也 强制 要 求 最 小 值 不 小 于 2) ， 该 数值 属性 才 会 作为 候选 的 分 裂 属性 进行 考虑 。 

C4.5 的 版 本 8 ， 最 后 一 个 非 商业 版 本 ， 对 数值 属性 分 裂 的 信息 增益 的 计算 包括 了 一 个 
基于 MDL 的 调整 。 确 切 地 说 ， 如 果 当 前 结 点 对 某 个 数值 属性 有 S 个 候选 分 裂 ， 那 么 将 会 
从 信息 增益 中 减 去 lg (S)/N, HP 是 该 结 点 的 实例 数 。Quinlan (1986) 提出 了 该 启发 
式 规则 ， 目 的 是 防止 过 度 拟 合 。 减 去 log,(5)/N 后 ， 信 息 增益 可 能 会 变 成 负 值 。 如 果 没 有 
属性 的 信息 增益 为 正 的 ， 那 么 树 会 停止 增长 ， 这 是 一 种 先 剪 枝 的 形式 。 这 里 我 们 提 到 它 ， 
因为 即使 不 使 用 后 剪 校 ， 该 启发 式 规则 也 会 令 人 惊讶 地 得 到 一 个 前 村 后 的 树 。 该 启发 式 规 
则 在 本 书 第 三 部 分 的 软件 中 也 已 经 被 实现 了 。 


6.1.8 成 本 -复杂 度 剪 枝 
正如 前 面 提 到 的 ，C4.5 中 的 后 剪 枝 方法 是 基于 一 些 弱 的 统计 假设 ， 实 践 证 明 它 的 剪 
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枝 还 不 够 。 男 一 方面 ， 它 运行 得 很 快 ， 因 此 在 实践 中 很 流行 。 然 而 ， 在 许多 应 用 中 ， 还 是 
值得 花 一 定 的 计算 成 本 来 获得 更 加 紧凑 的 决策 树 。 实 验 表 明 CA. 5 的 剪 枝 方法 最 终 得 到 的 
树 会 包含 不 必要 的 额外 结构 : 将 更 多 的 实例 加 入 到 训练 集 时 ， 树 的 规模 仍然 会 增 大 ， 即 使 
这 不 会 进一步 提高 算法 在 独立 测试 数据 上 的 性 能 。 这 种 情况 下 ， 分 类 和 回归 树 (CART) 
学 习 算法 中 更 保守 的 成 本 -复杂 度 前 枝 (cost-complexity pruning) 方法 也 许 会 更 合适 。 

成 本 - 复杂 度 剪 枝 基于 以 下 思想 : 首先 剪 校 那些 相对 于 它们 自身 大 小 ， 使 训练 数据 上 
误差 增长 最 小 的 子 树 。 误 差 的 增长 用 a 度量 ,a 定义 为 与 该 子 树 相关 的 叶子 结 点 平均 误差 
增长 。 在 剪 校 过 程 中 检查 该 量 ,， 算 法 会 得 到 一 系列 很 好 的 剪 术 后 较 小 的 树 。 在 每 次 迭代 过 
程 中 ， 它 会 剪除 当前 决策 树 的 所 有 剩余 子 树 中 a 值 最 小 的 所 有 子 树 。 

在 剪 枝 后 的 结果 序列 中 ， 每 个 候选 树 都 对 应 一 个 阔 值 a;。 现 在 的 问题 变 为 ， 应 该 选择 
哪 棵 树 作为 最 终 的 分 类 模型 ? 为 了 确定 最 有 预测 能 力 的 树 ， 成 本 -复杂 度 剪 枝 使 用 一 个 旁 
置 集 来 估计 每 棵 树 的 误差 率 ， 或 者 如 果 数 据 有 限时 ,使 用 交叉 验证 。 

使 用 旁 置 集 是 很 直接 的 方法 。 然 而 ， 对 于 交叉 验证 训练 的 大 折 得 到 的 剪 枝 后 的 树 序列 
中 观测 到 的 a 值 ， 交 叉 验 证 会 把 它 与 对 于 根据 整个 数据 集 得 到 的 剪 枝 后 的 树 序 列 中 的 oc 值 
关联 起 来 ， 这 会 引起 问题 ， 因 为 这 些 值 通常 是 不 同 的 。 这 个 问题 可 以 通过 对 完整 数据 集 的 
树 i 首先 计算 a; 和 ai 的 几何 平均 值 来 解决 。 然 后 对 于 交叉 验证 的 每 个 上 折 ， 选 择 最 大 的 
a 值 小 于 该 平均 值 的 树 。 在 % 折 相应 的 测试 数据 集 上 进行 估计 ， 得 到 的 这 些 树 的 平均 误差 
估计 ， 就 是 对 于 树 i 在 完整 数据 集 上 交叉 验证 的 误差 。 


6. 1.9 讨论 


自 上 而 下 的 决策 树 归纳 法 或 许 是 数据 挖掘 中 被 研究 最 多 的 机 器 学 习 方法 。 研 究 者 对 学 
习 过 程 中 几乎 所 有 可 能 的 方面 都 进行 了 各 种 探究 ， 例如， 不 同 的 属性 选择 标准 或 修改 的 前 
枝 方 法 。 可 是 很 少 能 在 大 量 不 同 数据 集 上 使 准确 率 得 到 真正 的 改善 。 正 如 前 面 讨论 过 的 ， 
使 用 CART 系统 中 的 剪 枝 方 法 来 学 习 决 策 树 (Breiman 等 ，1984) 通常 会 产生 比 C4. 5 Bc 
方法 更 小 的 决策 树 。Oates 和 Jensen (1997) 通过 实验 研究 了 该 问题 。 

在 关于 决策 树 的 讨论 中 ， 我 们 假设 在 每 一 个 结 点 上 ， 仅 仅 用 一 个 属性 来 将 数据 分 裂 成 
子 集 。 然 而 ， 也 可 以 允许 测试 条 件 一 次 涉及 多 个 属性 。 例 如 ， 对 于 数值 属性 ， 每 个 测试 可 
以 是 属性 值 的 线性 组 合 。 那 么 最 终 形成 的 树 是 如 4. 6 节 中 讨论 的 分 层 的 线性 模型 组 成 ， 分 
裂 也 不 再 局 限于 与 坐标 轴 平 行 。 相 对 于 常用 的 单 变量 (univariate) 树 ， 测 试 涉 及 一 个 以 上 
属性 的 树 称 为 多 变量 (multivariate) 决策 树 。CART 系统 包含 生成 多 变量 测试 的 选项 。 它 
们 通常 更 精确 ， 比 单 变量 树 更 小 ， 但 生成 树 的 时 间 要 长 得 多 并 且 较 难 解 释 。 在 7.3 节 的 主 
成 分 分 析 部 分 ， 我 们 将 简要 地 介绍 一 种 生成 它们 的 方法 。 


6.2 分 类 规则 


TE 4. 4 节 中 为 生成 规则 所 用 的 基本 覆盖 算法 是 一 种 变 治 (separate-and- conquer) 的 技 
术 ， 它 先 确 定 一 条 规则 能 覆盖 属于 某 个 类 的 实例 (并 排除 不 属于 此 类 的 实例 ) ， 将 这 些 实 
例 分 离 出 来 ， 然 后 继续 对 所 剩 的 实例 进行 处 理 。 这 种 算法 是 许多 生成 规则 系统 的 基础 。 我 
们 还 描述 了 一 个 简单 的 基于 纠正 的 方法 用 于 选择 在 每 个 阶段 对 规则 增加 何 种 测试 。 但 是 ， 
还 有 许多 其 他 可 能 的 方法 ， 具 体 方案 的 选择 对 规则 生成 具有 重大 影响 。 在 这 一 节 中 要 考察 
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为 了 选择 测试 所 采用 的 不 同方 案 。 还 要 讨论 怎样 通过 处 理 缺 失 值 和 数值 属性 将 基本 的 规则 
生成 算法 应 用 到 实践 中 。 

所 有 这 些 规则 生成 方案 的 真正 问题 在 于 它们 有 对 训练 数据 过 度 拟 合 的 倾向 ， 不 能 很 好 
地 推广 到 独立 的 测试 数据 集 上 ， 特 别 是 在 噪声 数据 上 。 为 了 能 生成 适合 噪声 数据 的 好 规 
则 ， 有 必要 使 用 某 些 方法 来 衡量 单个 规则 的 真正 价值 。 评 估 规 则 价值 的 标准 方法 就 是 评估 
规则 在 某 个 独立 实例 集 上 的 误差 率 ， 这 个 独立 实例 集 是 从 训练 集中 保留 出 来 的 一 部 分 ， 我 
们 将 在 后 面 解释 这 个 问题 。 然 后 讨论 两 种 工业 级 的 规则 学 习 器 : 一 种 是 将 简单 的 变 治 技术 
和 全 局 优化 步骤 结合 起 来 的 方法 ， 另 一 种 是 重复 建立 局 部 决策 树 并 从 中 提取 规则 。 最 后 讨 
论 怎样 产生 含有 例外 的 规则 ， 以 及 例外 的 例外 。 


6.2.1 选择 测试 的 标准 


在 4.4 节 中 介绍 基本 规则 学 习 器 时 曾 指出 必须 找 出 一 种 方法 ， 从 许多 可 能 的 测试 中 选 
定 某 个 测试 加 到 规则 中 ， 以 避免 规则 覆盖 任何 负 例 。 为 了 此 目的 ， 使 用 能 使 比率 p/t 达到 
最 大 值 的 测试 ， 这 里 i 是 指 新 规则 所 覆盖 的 实例 总 数 ,，p 是 其 中 正 例 的 数目 ， 即 属于 目标 
类 的 实例 数目 。 试 图 使 规则 的 “正确 性 ”最 大 化 ， 所 覆盖 的 正 例 样本 比率 越 高 ， 规 则 就 越 
是 正确 。 另 一 种 方法 是 计算 信息 增益 ; 


,os - e] 


和 前 面 一 样 ，p 和 :分 别 是 新 规则 所 覆盖 的 正 例 数量 和 所 有 实例 数量 ,，P 和 了 分 别 是 添加 
新 测试 之 前 ， 规 则 所 覆盖 的 对 应 的 实例 数量 。 原 理 是 它 代表 了 关于 当前 正 例 样 本 的 总 信息 
增益 ， 是 由 满足 新 测试 的 样本 数量 乘 以 信息 增益 所 给 出 的 。 

选择 加 入 到 规则 中 的 测试 的 基本 标准 是 找 出 尽 可 能 多 的 覆盖 正 例 样本 ， 并 尽 可 能 少 地 
覆盖 负 例 样本 的 测试 。 原 始 的 基于 正确 性 的 启发 式 规则 ， 只 是 看 正 例 样本 在 规则 所 覆盖 的 
所 有 样本 中 所 占 的 百分比 ， 而 不 管 规则 究 竞 覆盖 多 少数 量 的 正 例 样本 ， 当 它 没有 覆盖 任何 
负 例 样本 时 便 会 得 到 一 个 最 大 值 。 因 此 使 规则 精确 的 测试 便 优 先 于 使 规则 不 精确 的 测试 ， 
不 管 前 者 所 覆盖 的 正 例 样 本 数 有 和 多么 小 ， 也 不 管 后 者 所 覆盖 的 正 例 样本 数 有 和 多么 大 。 例 
如 ， 如 果 有 一 个 候选 的 测试 覆盖 1 个 样本 ， 这 个 样本 是 正 例 样 本 ， 那 么 这 种 标准 将 使 这 个 
测试 优先 于 另 一 个 能 覆盖 1000 个 样本 其 中 含 1 个 负 例 样本 的 测试 。 

男 一 方面 ， 基 于 信息 的 启发 式 规则 更 注重 于 规则 所 覆盖 的 大 量 正 例 样本 而 不 管 所 创建 
的 规则 是 否 精确 。 当 然 ， 两 种 算法 都 是 持续 增加 测试 直到 最 终 的 规则 是 精确 的 为 止 ， 这 意 
味 着 使 用 基于 正确 性 的 方法 将 会 较 早 结束 ， 而 使 用 基于 信息 的 方法 将 会 增加 更 多 的 测试 
项 。 这 样 基于 正确 性 的 方法 可 能 会 发 现 一 些 特殊 情形 ， 完 全 排除 它们 ， 避 免 了 后 面 规则 的 
大 量 描绘 〈 由 于 特殊 情形 已 经 处 理 了 ， 后 面 更 具 推广 性 的 规则 也 许 更 为 简单 ) 。 基 于 信息 
的 方法 先 要 试图 产生 高 覆盖 率 的 规则 而 将 特殊 情形 放 在 后 面 处理 。 使 用 两 种 策略 产生 精确 
的 规则 集 ， 哪 种 更 有 优势 并 不 明显 。 而 且 ， 事 实 上 正如 下 面 将 要 讲 到 的 ， 规 则 集 可 能 要 被 
前 枝 并 且 要 容许 不 精确 的 规则 存在 ， 因 此 整个 情形 变 得 更 为 复杂 。 


6.2.2 缺失 值 和 数值 属性 
如 同 分 治 决策 树 算法 一 样 ， 实 践 中 令 人 厌烦 的 对 于 缺失 值 和 数值 属性 的 考虑 是 无 法 回 
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避 的 问题 。 事 实 上 ， 也 没有 什么 可 以 多 说 的 。 现 在 我 们 已 知道 在 决策 树 归 纳 中 是 如 何 解决 
这 些 问题 的 ， 那么 适用 于 规则 归纳 的 解决 方案 就 很 容易 得 到 了 。 

当 使 用 覆盖 算法 产生 规则 时 ， 处 理 缺 失 值 的 最 好 方法 就 是 把 它们 当做 不 符合 任何 测 
试 。 这 在 产生 决策 列表 时 特别 合适 ， 因 为 它 会 促进 学 习 算法 利用 肯定 会 成 功 的 测试 来 将 正 
例 分 离 出 来 。 这 样 的 效果 是 要 么 使 用 不 涉及 缺失 值 属性 的 规则 来 对 缺失 值 实例 进行 处 理 ， 
要 么 在 绝 大 多 数 实 例 都 已 经 处 理 完 成 后 再 来 处 理 这 些 实例 ， 这 时 测试 可 能 涵盖 的 是 其 他 属 
性 。 履 盖 算 法 应 用 于 决策 列表 相对 于 决策 树 来 说 ， 在 这 方面 有 一 个 明显 的 优势 : 有 麻烦 的 
样本 可 以 稍 后 处 理 ， 这 样 由 于 绝 大 多 数 样本 都 已 经 分 类 完成 并 从 实例 集中 去 除 ， 那 时 它们 
就 显得 不 那么 麻烦 了 。 

数值 属性 可 以 采用 它们 在 决策 树 中 的 相同 办 法 处 理 。 对 于 每 一 个 数值 属性 ， 根 据 属性 
值 将 实例 进行 排序 ， 对 于 每 一 个 可 能 的 阐 值 ， 考 虑 一 个 二 元 的 小 于 /大 于 测试 ,评估 则 完 
全 采用 对 二 元 属性 进行 评估 的 方法 。 


6.2.3 生成 好 的 规则 


假设 你 并 非 要 生成 对 所 有 训练 集 实例 都 能 正确 分 类 的 完美 规则 ， 而 是 要 生成 “明智 
的 ”规则 ， 能 避免 对 训练 集 实例 过 度 拟 合 从 而 对 于 新 的 测试 实例 能 有 较 好 的 性 能 。 怎 样 决 
定 哪 些 规则 是 有 价值 的 呢 ? 为 了 排除 个 别 讨厌 的 错误 实例 ， 要 持续 地 向 规则 中 添加 测试 
项 ， 但 同时 也 会 排除 越 来 越 多 的 正确 实例 。 怎 样 知道 何 时 开始 起 反作用 了 呢 ? 

下 面 来 看 看 关于 表 1-1 所 列 的 隐形 眼镜 问题 的 几 个 可 能 的 规则 ， 有 些 是 好 的 规则 ， 有 
些 是 坏 的 规则 。 首 先 来 看 第 一 个 规则 ， 


If astigmatism = yes and tear production rate = normal 
then recommendation = hard 


这 条 规则 覆盖 6 种 情形 ， 其 中 4 种 能 得 到 的 是 正确 结论 。 因 此 ， 它 的 成 功 比例 就 是 4/6。 
假设 又 添加 了 一 个 测试 项 使 之 称 为 “完美 的 ”规则 : 


If astigmatism = yes and tear production rate = normal 
and age = young then recommendation = hard 


这 使 准确 率 提 高 为 2/2。 哪 条 规则 更 好 呢 ? 第 二 条 规则 对 训练 集 数据 具有 较 高 的 准确 率 ， 
但 是 只 能 涵盖 两 种 情形 ， 而 第 一 条 规则 却 能 涵盖 6 种 情形 。 第 二 条 规则 或 许 是 对 训练 数据 
过 度 拟 合 了 。 在 规则 学 习 实 践 中 ， 需 要 有 一 种 基本 方法 能 用 于 选择 较 合 适 的 规则 版 本 ， 即 
选 出 能 在 未 来 的 测试 数据 上 获得 最 高 准确 率 的 规则 。 

假设 将 训练 数据 分 成 两 个 部 分 ， 称 为 生长 集 (growing set) 和 剪 枝 集 (pruning set) 。 
生长 集运 用 基本 的 覆盖 算法 生成 规则 。 然 后 从 规则 中 去 除 某 个 测试 项 ， 并 使 用 剪 枝 集 来 对 
这 个 经 剪 枝 的 规则 进行 结果 评估 ， 看 看 是 否 比 原先 的 规则 更 好 。 重 复 这 样 的 剪 枝 过 程 直至 
去 除 任何 测试 项 都 不 再 能 使 规则 有 任何 改进 。 对 每 个 类 都 重复 整个 过 程 ， 为 每 个 类 获得 一 
条 最 好 的 规则 ， 而 总 体 最 好 的 规则 是 通过 使 用 剪 枝 集 对 这 些 规则 进行 评估 而 获得 的 。 将 这 
条 (最 好 的 ) 规则 添加 到 规则 集中 ， 将 它 所 覆盖 的 实例 从 训练 数据 中 去 除 ， 生 长 集 和 前 枝 
集中 相应 的 实例 也 都 要 去 除 ， 并 重复 整个 过 程 。 

为 何不 在 建立 规则 时 进行 剪 枝 而 是 在 规则 集 建 立 之 后 才 丢弃 其 中 的 某 部 分 呢 ? 即 为 何 
不 采用 先 剪 枝 而 采用 后 剪 枝 呢 ? 就 像 决 策 树 剪 枝 时 那样 ， 最 好 是 先生 成 一 个 最 大 的 树 ， 然 
后 再 往 回 剪 校 ， 对 于 规则 也 是 同样 的 ， 最 好 是 先 形成 最 完美 的 规则 然后 再 对 它 进行 剪 枝 。 
谁 知道 呢 ? 最 后 一 个 测试 项 的 添加 也 许 会 形成 一 条 相当 好 的 规则 ， 这 也 许 是 在 采用 大 胆 的 
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先 剪 枝 策略 时 绝 不 会 注意 到 的 。 

生长 集 和 剪 枝 集 必 须要 分 隔 开 是 很 关键 的 ， 因 为 使 用 形成 规则 的 数据 来 评估 一 条 规则 
会 产生 误导 : 会 由 于 优先 选择 过 度 拟 合 的 规则 而 导致 严重 错误 。 通 常 2/3 的 训练 数据 用 于 
生长 ， 而 1/3 的 训练 数据 用 于 剪 枝 。 缺 点 是 算法 只 在 生长 集 数据 上 进行 学 习 ， 若 某 些 关键 
实例 被 分 隔 在 剪 枝 集中 ， 算 法 可 能 会 遗失 一 些 重要 规则 。 另 外 ， 错 误 的 规则 有 可 能 获得 优 
先 ， 因 为 剪 枝 集 只 含 1/3 的 训练 数据 也 许 并 不 能 完全 具有 代表 性 。 这 些 影响 可 以 通过 在 算 
法 所 进行 的 每 次 循环 中 ， 即 在 每 条 规则 最 终 选 择 之 后 ， 将 训练 数据 重新 分 裂 为 生长 集 和 前 
校 集 来 改进 。 

使 用 隔离 的 剪 枝 集 进行 剪 枝 ， 它 既 适 用 于 决策 树 也 适用 于 规则 集 ， 称 为 减少 - RAW 
枝 (reduced-error pruning) 。 前 面 描述 的 在 规则 每 次 生成 时 就 立即 剪 枝 的 规则 称 为 增 量 减 
少 -误差 剪 枝 〈incremental reduced- error pruning) 。 另 一 种 可 能 方法 是 先 建立 未 剪 枝 的 完 
整 规则 集 ， 然 后 再 丢弃 单个 测试 来 进行 剪 校 。 然 而 这 种 方法 慢 多 了 。 

当然 ， 有 多 种 不 同方 法 能 以 剪 枝 集 为 基础 ， 评 估 一 条 规则 的 价值 所 在 。 一 种 简单 的 方 
法 是 在 闭合 形式 的 假设 条 件 下 ， 如 果 某 个 规则 是 某 个 理论 的 唯一 规则 ， 考 虑 应 用 这 个 规则 
从 其 他 类 别 中 识别 出 预测 类 究竟 完成 得 有 多 好 。 如 果 规 则 所 覆盖 的 t 个 实例 中 能 得 到 个 
实例 是 正确 的 ,并且 在 所 有 的 7 了 个 实例 中 有 P 个 实例 是 属于 这 个 类 的 。 规 则 所 没有 覆盖 的 
HAEN- ^, XE n=t-p 是 指 规则 所 覆盖 的 负 例 数量 ,，N = T -P 是 负 例 的 总 数量 。 
因此 ， 规 则 对 p+ (N -n) 个 实例 做 出 了 正确 的 决策 ， 因 此 总 的 成 功率 是 

[p+(N-n)]/T 

在 测试 集 上 评估 所 得 到 的 这 个 值 用 来 评估 采用 减少 -误差 剪 枝 所 得 到 的 规则 的 成 功 性 。 

这 种 方法 将 被 规则 覆盖 的 负 例 样本 的 重要 性 等 同 于 规则 所 覆盖 的 正 例 样本 的 重要 性 ， 
这 是 不 切实 际 的 ， 实 际 情 况 是 被 评估 的 这 条 规则 最 终 将 伴随 着 其 他 规则 共同 工作 ， 所 以 对 
这 种 方法 批评 意见 较 多 。 例 如 ， 一 条 规则 所 覆盖 的 3000 个 实例 中 有 p = 2000 个 实例 得 到 
正确 预测 ( 即 有 n= 1000 个 是 错误 的 ) ， 相 比 另 一 条 规则 覆盖 1001 个 实例 ， 其 中 有 p= 
1000 个 实例 得 到 正确 预测 (MA n = 1 个 是 错误 的 ) ， 评 估 结 果 是 前 者 比 后 者 更 成 功 ， 因 
为 在 第 一 种 情形 中 [p+(N-n)]/T 等 于 [1000 +N]AT， 而 在 第 二 种 情形 中 却 只 有 
[999 + N]/T。 这 是 违背 直觉 的 : 第 一 条 规则 预测 能 力 明 显 比 第 二 条 差 ， 其 误差 率 是 33% 
对 0.1%。 

利用 成 功率 p 来 衡量 ， 就 像 覆 盖 算 法 的 原始 表达 式 (JILE 4-8) 那样 ， 也 不 是 完美 
的 解决 方法 ， 因 为 它 会 选择 能 得 到 1 个 正确 预测 (p-1) 而 总 覆盖 数 为 1 (因此 n=0) 的 
规则 优先 于 更 有 用 的 能 从 1001 个 实例 中 得 到 1000 个 正确 预测 的 规则 。 另 一 种 曾 应 用 的 方 
法 是 计算 (p -nn)/At， 但 它 也 存在 同样 的 问题 ， 因 为 (p-n)/t-2p/t-1, UATE REA 
规则 时 ， 结 论 等 同 于 两 个 成 功率 的 比较 。 看 来 似乎 很 难 找到 一 种 简单 的 方法 来 衡量 规则 的 
价值 ， 这 个 价值 要 在 所 有 情形 下 都 能 和 直觉 相符 。 

无 论 使 用 何 种 衡量 规则 价值 的 启发 式 方法 ， 增 量 减少 - 误差 剪 枝 算法 都 是 相同 的 。 
图 6-3 给 出 了 一 种 以 这 种 思想 方法 为 基础 的 可 能 的 规则 学 习 算 法 。 它 产生 一 组 决策 列表 ， 
依次 为 每 个 类 生成 规则 ， 在 每 个 阶段 根据 它 在 剪 枝 数据 上 得 出 的 价值 ， 选 择 出 最 好 的 规 
则 。 应 用 生成 规则 的 基本 覆盖 算法 ( 见 图 4-8) 来 为 每 个 类 生成 好 的 规则 ， 并 利用 先前 讨 
论 的 准确 率 量 度 p/i 来 选择 加 入 规则 的 条 件 。 
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将 下 初始 化 为 实例 集 
WEE HK 2:1 分 为 生长 集 和 剪 枝 集 
对 于 生长 集 和 剪 枝 集 中 都 含有 实例 的 每 个 类 C 
使 用 基本 覆盖 算法 ， 为 类 别 C 生成 最 好 的 规则 
在 剪 枝 集 上 计算 规则 的 价值 w(R)， 以 及 将 最 后 一 个 条 件 去 除 后 的 价值 w(R - ) 
4w(R-) >w(R) 时 ， 从 规则 中 去 除 最 后 一 个 条 件 并 重复 上 一 步骤 
从 所 生成 的 规则 中 选择 w(R) 值 最 大 的 那个 规则 
输出 规则 
从 下 中 去 除 被 这 个 规则 所 覆盖 的 实例 
继续 循环 
207 图 6-3 增 量 减少 - 误差 剪 枝 算法 形成 规则 的 算法 


这 个 方法 用 于 产生 规则 归纳 方案 ， 这 些 方案 能 处 理 大 量 数据 并 且 运 行 速 度 很 快 。 通 过 
为 排序 的 类 生成 规则 来 替换 原先 在 每 个 阶段 为 每 个 类 生成 一 条 规则 并 选择 最 好 的 ， 该 算法 
还 可 以 提速 。 一 种 较 合适 的 排序 是 按照 各 个 类 在 训练 集中 出 现 次 数 的 升序 排列 ， 因 此 最 少 
出 现 的 类 第 一 个 处 理 ， 最 常见 的 类 最 后 处 理 。 可 获 明显 提速 的 另 一 方面 是 当 产生 了 某 个 足 
够 小 的 准确 率 的 规则 时 ， 就 停止 整个 程序 ， 这 样 就 可 以 避免 在 最 后 为 生成 许多 覆盖 量 很 小 
的 规则 而 花费 时 间 。 但 是 ， 非 常 简单 的 停止 条 件 ( 比如 ， 当 一 条 规则 的 准确 率 低 于 它 所 预 
测 的 类 的 默认 准确 率 时 即 停 止 ) 并 不 能 获得 最 好 的 性 能 ， 而 目前 所 发 现 的 似乎 能 提高 性 能 
的 条 件 是 相当 复杂 的 ， 它 们 是 以 MDL 原理 为 基础 的 。 


6.2.4 使 用 全 局 优化 


通常 ， 使 用 增 量 减少 - 误差 剪 枝 算法 来 生成 规则 ， 特 别 是 在 大 的 数据 集 上 ， 效 果 相 当 
不 错 。 但 是 ， 在 规则 集 上 使 用 全 局 优化 步骤 能 获得 有 价值 的 性 能 优势 。 动 机 是 通过 修改 或 
替换 个 体 规则 来 提高 规则 集 的 准确 率 。 实 验 显示 使 用 后 归纳 优化 ， 规 则 集 的 大 小 和 性 能 都 
获 明 显 改善 。 但 另 一 方面 ， 整 个 过 程 相 当 复 杂 。 

为 了 对 这 个 精巧 的 、 宣 有 启发 的 以 及 工业 级 的 规则 学 习 器 是 怎样 形成 的 提供 一 个 概念 ， 
图 6-4 展示 了 一 种 称 为 RIPPER 的 算法 ， 它 是 重复 增 量 前 枝 以 减少 误差 (incremental. pruning 
to produce error reduction) 的 缩写 。 检 验 是 按照 各 个 类 〈 所 含 实例 数量 。 译 者 注 。) 由 小 
到 大 的 顺序 来 进行 ， 类 的 初始 规则 集 是 用 增 量 减少 - 误差 剪 枝 算法 产生 的 。 引 入 一 个 额外 的 
停止 条 件 ， 它 是 依赖 于 样本 和 规则 集 的 描述 长 度 。 描 述 长 度 DL 有 一 个 复杂 的 公式 ， 它 要 考 
虑 传送 关于 某 组 规则 的 一 组 样本 所 需 的 位 数 ， 传 送 带 有 个 条 件 的 规则 所 需 的 位 数 ， 以 及 传 
送 整数 天 所 需 位 数 之 和 ， 乘 以 30% 用 以 补偿 可 能 发 生 的 重复 属性 所 需 的 位 数 。 

在 为 某 个 类 建立 了 规则 集 之 后 ， 重 新 考虑 每 条 规则 ， 产 生 两 种 变 体 ， 再 次 使 用 减少 - 
误差 剪 校 算法 , .但 在 这 个 阶段 ， 把 为 这 个 类 而 建立 的 其 他 规则 所 覆盖 的 实例 从 剪 枝 集中 去 
除 ， 在 剩余 的 实例 上 所 获 的 成 功率 用 来 作为 剪 枝 标准 。 如 果 两 种 变 体 中 的 某 一 种 产生 一 个 
较 好 的 描述 长 度 ， 那 么 就 用 它 来 蔡 换 规则 。 接 下 来 再 次 激活 最 初 的 创建 规则 阶段 ， 对 任何 
属于 这 个 类 而 未 被 规则 覆盖 的 实例 进行 扫尾 工作 。 为 了 确保 每 条 规则 对 减少 描述 长 度 都 做 
了 贡献 ， 在 进行 下 一 个 类 的 规则 生成 程序 之 前 要 做 最 后 的 检查 。 


6.2.5 从 局 部 决策 树 中 获得 规则 


规则 归纳 还 有 另外 一 种 方法 ， 它 避免 了 全 局 优化 但 仍 能 生成 一 个 精确 的 、 紧 凑 的 规则 
[208] 集 。 这 个 方法 将 决策 树 学 习 所 应 用 的 分 治 策略 和 规则 学 习 的 变 治 策略 结合 起 来 。 它 是 这 样 
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采用 变 治 策略 的 : 先 建立 一 条 规则 ， 将 规则 所 覆盖 的 实例 去 除 ， 然 后 递归 地 为 剩余 的 实例 
建立 规则 ， 直 至 没有 剩余 实例 。 它 与 标准 方法 的 不 同 之 处 在 于 每 条 规则 都 是 创建 出 来 的 。 
在 本 质 上 ,创建 一 条 规则 就 是 先 为 当前 的 实例 集 创 建 一 个 经 前 村 的 决策 树 ， 将 覆盖 实例 最 
多 的 叶子 结 点 转换 成 一 条 规则 ， 然 后 丢弃 这 个 决策 树 。 


将 下 初始 化 为 实例 集 
对 每 个 类 C， 从 最 小 到 最 大 
建立 : 
Hi E 82:1 分 裂 为 生长 集 和 前 枝 集 
重复 循环 直至 (a) 不 存在 未 被 覆盖 的 、 类 别 为 C 的 实例 ; R (b) 规则 集 和 实例 集 的 
描述 长 度 (DL) 比 目 前 找到 的 最 短 描述 长 度 大 64 位 以 上 ; R (c) 误差 率 超过 50% : 
生长 阶段 : 贪心 式 地 增加 条 件 来 建立 规则 ， 直 至 规则 达到 100% 准确 率 ，( 所 增加 
的 条 件 是 ) 通过 测试 每 个 属性 的 每 种 可 能 属性 值 ， 并 选择 其 中 能 获得 最 大 信息 
增益 G 的 条 件 
前 枝 阶 段 : 按 从 后 到 前 的 顺序 对 条 件 剪 枝 ， 只 要 规则 的 价值 W 上 升 则 继续 
优化 : 
产生 变 体 : 
对 于 类 别 C 的 每 个 规则 R, 
重新 将 下 分 裂 为 生长 集 和 剪 枝 集 
从 剪 枝 集 中 去 除 类 别 C. 的 其 他 规则 所 覆盖 的 实例 
使 用 GROW 和 PRUNE 在 新 分 裂 的 数据 上 产生 并 剪 枝 两 个 竞争 规则 : 
R1 是 一 个 重建 的 新 规则 
R2 是 通过 贪心 式 地 在 R 中 添加 测试 条 件 来 生成 的 
采用 A 度量 (代替 W) 在 减少 的 数据 上 进行 的 剪 枝 
选择 代表 : 
将 R、R1 和 R2 中 描述 长 度 最 小 的 一 个 来 代替 R 
扫尾 : 
如 果 还 有 未 被 MU) 覆盖 的 、 属 于 类 别 C 的 残余 实例 ， 则 返回 到 建立 (BUILD) 
阶段 ， 在 这 些 实例 上 建立 更 多 的 规则 








整理 : 
为 整个 规则 集 计 算 DL ( 描述 长 度 ) 并 依次 除去 规则 集中 的 每 个 规则 计算 DL; 去 除 使 
DL 增加 的 规则 
去 除 由 生成 的 规则 所 覆盖 的 实例 
继续 循环 











a) 规则 学 习 算 法 
G=pllog(p/t) -log( P/T) ] 


w=2+! 
#2 





ASPEN, MURER, 


Pp 规则 所 覆盖 的 正 例 样 本 数量 (真正 例 ) 

n= 规则 所 履 盖 的 负 例 样本 数量 ( 假 负 例 ) 

t=p +n; 规则 所 覆盖 的 样本 总 数 

n'zN-n; 未 被 规则 覆盖 的 负 例 样本 数量 ( 真 负 例 ) 
P= 属于 这 个 类 的 正 例 样本 数量 

N= 属于 这 个 类 的 负 例 样本 数量 

T=P+N; 属于 这 个 类 的 样本 总 数 


b) 符号 的 含义 
图 6-4 RIPPER 
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重复 建立 决策 树 只 是 为 了 丢弃 绝 大 部 分 的 树 ， 但 这 并 不 像 表面 看 起 来 的 那样 古怪 。 利 
用 已 剪 枝 的 树 得 到 一 条 规则 ， 取 代 通 过 每 次 去 除 一 个 联合 条 件 递 增 地 剪 枝 规 则 ， 可 以 避免 
过 度 剪 枝 倾向 ， 过 度 剪 枝 是 基本 的 变 治 规则 学 习 法 的 一 个 典型 问题 。 将 变 治 学 习 法 和 决策 
树 结合 起 来 能 提高 灵活 性 和 速度 。 建 立 完整 决策 树 只 是 为 了 得 到 一 条 规则 ， 的 确 很 浪费 ， 
然而 这 个 程序 还 可 被 显著 加 速 而 不 牺牲 上 述 优点 。 

关键 思路 是 建立 局 部 决策 树 而 不 展开 整个 树 。 局 部 决策 树 是 一 个 普通 的 决策 树 ， 它 包 
含 了 一 些 未 定义 子 树 的 分 支 。 为 了 建立 这 样 的 树 ， 将 构建 和 剪 枝 操 作 结 合成 一 体 以 便 能 找 
到 一 个 “稳定 ”的 、 不 能 再 简化 的 子 树 。 一 旦 找到 这 样 的 子 树 ， 建 树 过 程 即 停止 并 从 中 读 
出 一 条 规则 。 

图 6-5 总 结 了 建立 树 的 算法 : 它 将 一 组 实例 递归 地 分 裂 成 一 个 局 部 树 。 第 一 步 是 选择 
一 种 测试 条 件 ， 将 实例 集 分 成 几 个 子 集 。 这 个 测试 条 件 的 确定 是 采用 建立 决策 树 时 常用 的 
信息 增益 法 〈( 见 4.3 节 )。 然 后 将 子 集 按 它们 的 平均 简 的 升序 依次 展开 。 这 样 做 的 原因 是 
排 在 后 面 的 子 集 很 可 能 不 因 这 次 展开 而 结束 ， 而 平均 焙 较 低 的 子 集 更 可 能 导致 形成 小 的 子 
树 ， 从 而 产生 一 个 更 通用 的 规则 。 递 归 进 行 这 个 过 程 直 到 这 个 子 集 展开 成 为 叶子 结 点 ， 然 
后 返回 继续 下 一 步 。 一 旦 出 现 一 个 内 部 结 点 ， 它 的 所 有 子 结 点 都 成 了 叶子 结 点 ， 算 法 就 立 
即 检 查 是 否 用 一 个 叶子 结 点 来 替换 这 个 内 部 结 点 会 更 好 。 这 正 是 用 于 决策 树 剪 枝 的 标准 的 
“THE” HE ( 见 6.1 节 ) 。 如 果 执 行 了 置换 操作 ， 算 法 接着 按 标准 方式 返回 ， 展 开 
这 个 新 近 置 换 结 点 的 兄弟 结 点 。 但 是 ， 如 果 在 返回 时 ， 遇 到 某 个 结 点 ， 它 的 所 有 已 展开 的 
子 结 点 并 不 全 是 叶子 结 点 ， 那 么 当 有 一 个 洪 在 的 子 树 置 换 没 有 执行 时 ， 这 样 剩 下 的 子 集 就 
不 再 展开 ， 相 应 的 子 树 也 就 未 被 定义 。 由 于 算法 采用 了 递归 结构 ， 所 以 这 种 情况 的 出 现 会 
自动 终止 建树 过 程 。 
expand-subset (S): 

选择 一 个 测试 T， 将 实例 集 分 裂 为 子 集 

将 子 集 按 平均 粹 的 升序 排列 

while (存在 一 个 未 被 展开 的 子 集 X， 并 且 目 前 已 展开 的 所 有 子 集 都 是 叶子 结 点 ) 

expand-subset (X) 
让 (所 有 的 已 展开 的 子 集 都 是 叶子 结 点 ， 并 且 子 树 估计 误差 三 结 点 估计 误差 ) 
取消 子 集 的 展开 并 将 该 结 点 变 为 叶子 结 点 


图 6-5 将 样本 展开 成 局 部 树 的 算法 


图 6-6 展示 了 一 个 逐步 建立 局 部 树 的 例子 。 在 图 6-6a ~ 图 6-6c 的 各 个 阶段 ， 是 按 一 般 
的 方式 进行 递归 建树 ， 除 了 每 次 展开 都 是 从 兄弟 结 点 中 选择 箭 最 低 的 那个 结 点 进行 : 在 
图 6-6a、 图 6-6b 阶段 是 结 点 3。 灰 色 椭 圆 结 点 是 目前 还 未 展开 的 结 点 ; 长 方形 结 点 是 叶子 
结 点 。 从 图 6-6b ~ 图 6-6c， 长 方形 结 点 比 兄 弟 结 点 〈 结 点 5) WRR, [err ECT 
点 ， 所 以 已 不 能 再 展开 了 。 这 时 就 进行 返回 过 程 ， 选 择 结 点 5 进行 展开 。 一 旦 到 达 图 6-6c 
阶段 ， 就 出 现 一 个 结 点 5， 它 的 所 有 子 结 点 都 被 展开 成 为 叶子 结 点 ， 这 触发 了 剪 枝 操作 。 
考虑 并 接受 对 结 点 5 进行 子 树 置换 ， 进 入 图 6-6d 阶段 。 现 在 又 要 考虑 对 结 点 3 进行 子 树 置 
换 ， 这 个 操作 也 被 接受 了 。 继 续 进 行 返回 操作 ， 结 点 4 的 炉 比 结 点 2 小 ， 因 此 它 被 展开 成 
2 个 叶子 结 点 。 现 在 考虑 对 结 点 4 的 子 树 进行 置换 : 假设 结 点 4 没有 被 置换 。 这 时 程序 在 
图 6-6e 阶段 终止 ， 形 成 带 有 3 个 叶子 结 点 的 局 部 树 。 

如 果 数 据 是 无 噪声 的 ， 并 且 包 含 了 足够 实例 以 避免 算法 进行 任何 剪 枝 操作 ， 那 么 算法 
只 会 展开 完全 树 中 的 一 条 路 径 。 与 每 次 将 整个 树 都 展开 的 原始 方法 相 比 ， 这 种 方法 获得 了 
最 大 的 性 能 提高 。 这 个 提高 随 着 剪 枝 操 作 的 增加 而 减 小 。 对 于 数值 属性 的 数据 集 来 说 ， 算 
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法 的 渐 近 时 间 复 杂 度 和 建 完全 决策 树 是 相同 的 ， 因 为 在 这 种 情形 下 复杂 度 是 由 算法 开始 时 
属性 值 排序 所 需 时 间 决 定 的 。 





图 6-6 建立 局 部 树 的 例子 


一 旦 建立 了 局 部 树 ， 就 能 从 树 中 提取 一 条 规则 。 每 个 叶子 结 点 对 应 于 一 条 可 能 的 规 
则 ， 我 们 要 在 那些 被 展开 成 叶子 结 点 的 子 树 (少数 的 几 个 子 树 ) 中 寻找 一 个 “最 好 ”的 
叶子 结 点 。 试 验 表 明 最 好 选择 覆盖 实例 数量 最 多 的 叶子 结 点 以 得 到 最 为 通用 的 规则 。 

当 一 个 数据 集 含 有 缺失 值 时 ， 可 以 用 建立 决策 树 时 使 用 的 相同 方法 处 理 。 如 果 一 个 实 
例 由 于 缺失 值 问题 而 不 能 分 到 任何 分 支 中 ， 就 将 它 按照 权 值 比例 分 到 每 个 分 支 中 ， 权 值 比 
例 是 将 各 个 分 支 所 含 的 训练 实例 数量 ， 用 结 点 所 含 的 所 有 已 知 训练 实例 数量 进行 规范 化 得 
到 的 。 在 测试 中 ， 对 每 条 规则 也 进行 同样 的 过 程 ， 这 样 就 可 将 权 值 和 每 条 规则 在 测试 实例 
上 的 应 用 联系 起 来 了 。 在 规则 列表 中 的 下 一 条 规则 测试 之 前 ， 将 这 个 权 值 从 实例 的 总 权 值 
中 扣除 。 一 旦 权 值 减 为 0， 就 将 预测 类 的 概率 根据 权 值 组 合 起 来 形成 最 终 的 分 类 结果 。 

这 就 产生 了 一 个 用 于 噪声 数据 决策 列表 学 习 的 简单 却 出 乎 意料 有 效 的 方法 。 对 比 其 他 
一 些 规则 形成 方法 ， 它 的 主要 优点 在 于 简便 ， 因 为 其 他 方法 需要 采用 复杂 的 全 局 优化 才能 
达到 相当 的 性 能 水 准 。 


6.2.6 包含 例外 的 规则 


在 3.4 节 中 我 们 曾 学 习 将 规则 自然 扩展 以 便 允 许 它们 包含 例外 ， 以 及 例外 的 例外 等 。 
实际 上 ， 整 个 规则 集 可 以 看 做 是 没有 应 用 其 他 规则 时 的 一 个 默认 分 类 规则 的 例外 。 利 用 前 
面 所 述 的 某 种 度量 产生 一 个 “好 ”规则 的 方法 ， 正 是 提供 了 一 种 产生 包含 例外 的 规则 所 需 
的 机 制 。 

首先 ， 为 最 顶层 的 规则 选择 一 个 默认 类 ， 自 然 是 使 用 在 训练 集中 最 常 出 现 的 类 。 然 
后 ， 找 到 关于 某 个 类 的 一 条 规则 ， 这 个 类 是 指 任何 一 个 有 别 于 默认 值 的 类 。 自 然 是 要 在 所 
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有 类 似 的 规则 中 寻找 最 有 区 别 能 力 的 〈 比 如 ， 在 测试 集 上 评估 结果 最 好 的 ) 那个 。 假 设 这 
条 规则 有 如 下 形式 


if <condition> then class = (new class? 

用 它 可 将 训练 集 数 据 分 成 两 个 子 集 : 一 个 包含 所 有 能 满足 规则 条 件 的 实例 ， 另 一 个 包含 所 
有 不 满足 规则 条 件 的 实例 。 如 果 任 何 一 个 子 集中 含有 属于 一 个 以 上 的 类 的 实例 ， 那 么 就 在 
这 个 子 集 上 递归 调用 算法 。 对 于 满足 条 件 的 子 集 ,“ 默 认 类 ”就 是 规则 中 所 指定 的 新 的 类 ; 
对 于 不 满足 条 件 的 子 集 ， 默 认 类 就 是 保持 原来 所 定 的 类 。 

对 于 3.4 节 中 所 给 出 的 含有 例外 的 规则 ， 这 些 规则 是 关于 表 1-4 的 营 尾 花 数据 的 ， 下 
面 来 检验 这 个 算法 是 如 何 工作 的 。 我 们 用 图 6-7 所 示 的 图 形 形 式 来 代表 规则 ， 它 等 价 于 前 
面 图 3-8 中 用 文字 来 表示 的 规则 。 默 认 值 Iris setosa 是 开始 结 点 ， 位 于 左上 方 。 水 平 虚线 路 
径 指 向 的 是 例外 ， 因 此 接 下 来 的 方 框 ， 内 含 结论 为 Iris versicolor 的 一 条 规则 ， 便 是 默认 值 
的 一 个 例外 。 在 它 的 下 方 是 另 一 个 选择 项 ， 第 二 个 例外 ， 选 择 项 路 径 用 垂直 实 线 ， 结 论 是 
Iris virginica。 上 方 的 路 径 沿 水 平方 向 通 向 Iris versicolor 规则 的 一 个 例外 ， 只 要 右上 方 框 中 
的 条 件 成 立 ， 就 用 结论 Iris virginica 代替 Iris versicolor。 这 个 例外 的 下 方 是 另 一 个 选择 项 ， 
(碰巧 ) 导致 相同 的 结论 。 回 到 下 方 中 间 的 方 框 ， 它 也 有 自己 的 例外 ， 即 右 下 方 结论 为 Tis 
versicolor 的 方 框 。 每 个 方 框 右 下 角 所 示 的 数字 是 规则 的 “覆盖 量 ”， 它 是 用 符合 规则 的 实 
例 数量 除 以 满足 测试 条 件 但 结论 不 一 定 相符 的 实例 数量 来 表示 。 例 如 ， 位 于 上 方 中 间 的 方 
框 中 所 列 的 条 件 应 用 于 52 个 实例 ， 其 中 有 49 个 是 属于 Iris versicolor 的 。 这 种 表示 法 的 优 
点 在 于 ， 你 能 感觉 到 位 于 左 侧 方 框 中 的 规则 效果 非常 好 ， 而 位 于 右 侧 方 框 中 的 只 是 覆盖 少 
数 几 个 例外 的 情况 。 


petal length >= 2.45 


" width « 1.7 
--> Iris setosa petal wid EIS 
ZIEL petal length « 5.35 
50/150 A : 
--> Iris versicolor 


49/52 


petal length >= 4.95 
petal width < 1.55 
--> Iris virginica 
2/2 


sepal length < 4.95 
sepal width >= 2.45 
--> Iris virginica 
1/1 





petal length « 4.85 
sepal length « 5.95 
--> Iris versicolor 
1/1 


petal length >= 3.35 
--> Iris virginica 
47/48 





图 6-7 高 尾 花 数据 的 包含 例外 的 规则 


为 了 要 产生 这 些 规 则 ， 将 默认 值 先 定 为 Iris setosa, 通常 是 选择 数据 集中 最 频繁 出 现 的 
类 。 这 里 是 任意 选择 的 ， 因 为 对 这 个 数据 集 来 说 ， 所 有 的 类 都 正好 出 现 50 次 。 如 图 6-7 
所 示 ， 这 个 默认 “规则 ”在 150 种 情形 中 有 50 种 是 正确 的 。 然 后 寻找 出 能 预测 其 余 类 的 
最 好 规则 。 在 这 个 例子 中 是 


if petal-length > 2.45 and petal-length < 5.355 
and petal-width < 1.75 then Iris-versicolor 
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这 条 规则 覆盖 了 52 个 实例 ， 其 中 49 个 属于 Iris versicolor。 它 将 数据 集 分 裂 成 两 个 子 集 : 
52 个 满足 规则 条 件 的 实例 ， 剩 余 的 98 个 不 满足 条 件 。 

先 处 理 前 一 部 分 子 集 ， 这 部 分 实例 的 默认 类 是 Fis versicolor; 只 有 3 个 实例 例外 ， 这 3 
个 实例 正好 都 属于 Iris setosa。 对 于 这 个 子 集 ， 预 测 结果 不 是 Iris versicolor 的 最 好 规则 是 : 

if petal-length > 4.95 and petal-width < 1.55 then Iris-virginica 
它 覆 盖 了 3 dris setosa 实例 中 的 2 个 。 这 条 规则 将 子 集 再 次 分 裂 成 两 个 部 分 : 满足 规则 
条 件 的 和 不 满足 条 件 的 。 幸 运 的 是 ， 这 次 满足 条 件 的 实例 都 是 属于 Iris virginica, FAN FE 
需要 例外 了 。 但 剩 下 的 实例 中 还 包含 第 三 个 Fris virginica 实例 和 49 个 属于 默认 类 的 Iris ver- 
sicolor 实例 。 再 次 找到 最 好 的 规则 : 

if sepal-length € 4.95 and sepal-width > 2.45 then Iris-virginica 
这 条 规则 覆盖 了 剩余 的 那个 Iris virginica 实例 ， 因 此 也 不 再 需要 例外 。 而 且 子 集中 所 有 其 
他 不 满足 这 个 规则 条 件 的 实例 都 是 属于 Iris versicolor 类 ， 这 正 是 当前 的 默认 类 ， 因 此 不 再 
需要 做 什么 了 。 

现在 回 到 由 初始 规则 分 裂 出 的 第 二 部 分 子 集 ， 所 有 不 满足 下 面条 件 的 实例 : 

petal-length > 2.45 and petal-length < 5.355 and petal-width < 1.75 
对 于 这 些 实例 ， 预 测 它们 的 类 别 不 是 默认 值 Iris setosa 的 所 有 规则 中 ， 最 好 的 规则 是 

if petal-length > 3.35 then Iris-virginica 
它 覆 盖 了 这 个 样本 集 所 含 的 所 有 47 Iris virginica 实例 (如 前 面 所 解释 的 ， 另 外 3 个 被 第 
一 条 规则 去 除了 ) 。 它 还 包含 一 个 Iris versicolor 实例 。 这 就 需要 用 最 后 那 条 规则 作为 例外 
处 理 : 

if petal-length < 4.85 and sepal-length < 5.95 then Iris-versicolor 
幸运 的 是 ， 几 是 不 满足 规则 条 件 的 实例 都 是 属于 默认 类 Iris setosa。 因 此 结束 整个 程序 。 

所 产生 的 这 些 规则 有 一 个 特点 ， 即 大 多 数 的 实例 都 被 高 层 的 规则 所 覆盖 ， 而 低层 的 规 





则 正好 代表 例外 。 例 如 ， 先 前 规则 中 的 最 后 一 个 例外 子 句 以 及 骨 套 的 else 子 句 的 最 深层 都 
只 覆盖 了 单个 实例 ， 如 将 它们 去 除 几 乎 不 会 有 什么 影响 。 即 使 是 其 余 的 艇 套 内 的 例外 规则 
也 只 覆盖 了 2 个 实例 。 因 此 人 们 可 以 忽略 所 有 深层 结构 而 只 关心 第 一 、 二 层 就 能 对 这 些 规 
则 到 底 干 什么 能 有 非常 清楚 的 认识 。 这 正 是 包含 例外 规则 的 诱 人 之 处 。 


6.2.7 讨论 


以 上 所 讨论 的 所 有 产生 分 类 规则 的 算法 都 是 使 用 基本 的 覆盖 或 变 治 方案 。 对 于 简单 而 
无 噪声 的 情形 ， 所 使 用 的 是 一 种 简单 易 懂 的 算法 ， 称 为 PRISM (Cendrowska, 1987), “4 
应 用 于 有 封闭 世界 假定 的 二 类 问题 时 ， 只 需要 对 其 中 的 一 个 类 建立 规则 : 规则 属于 析 取 范 
式 ， 应 用 于 测试 实例 时 不 会 产生 模棱两可 的 情形 。 当 应 用 于 多 类 问题 时 ， 为 每 个 类 生成 一 
个 规则 集 。 这 样 ， 一 个 测试 实例 可 能 被 赋予 一 个 以 上 的 类 别 ， 或 者 一 个 也 没有 ， 如 果 要 寻 
找 单一 的 预测 类 ， 有 必要 考虑 进一步 的 解决 方法 。 

为 减少 有 了 噪声 情形 下 的 过 度 拟 合 问题 ， 有 必要 产生 一 些 甚 至 在 训练 集 上 也 不 “完美 
的 ”规则 。 为 了 做 到 这 点 ， 需 要 对 规则 的 “良好 度 ” 或 价值 进行 度量 。 有 了 这 种 度量 ， 
才 有 可 能 放弃 基本 的 覆盖 算法 所 使 用 的 一 个 类 接 一 个 类 的 逐个 进行 的 方法 ， 而 采用 以 产生 
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最 好 的 规则 为 开端 ， 无 论 它 是 对 哪个 类 别 的 预测 ， 然 后 将 这 个 规则 所 覆盖 的 所 有 实例 去 
除 ， 再 继续 这 个 过 程 。 这 形成 了 产生 决策 列表 的 方法 ， 而 不 是 产生 一 系列 独立 的 分 类 规 
则 。 决 策 列表 的 重大 优点 是 用 它们 做 判定 时 不 会 产生 不 明确 的 结论 。 

增 量 减少 - 误差 剪 梳 法 的 思想 归功 于 Fürnkranz 和 Widmer (1994) ， 为 快速 且 有 效 的 
规则 归纳 法 的 形成 商定 了 基础 。RIPPER 规则 学 习 器 是 由 Cohen (1995) 提出 的 ， 尽 管 公 
开发 表 的 论述 在 关于 描述 长 度 (DL) 怎样 影响 停止 条 件 问题 上 ， 看 起 来 与 实现 时 有 所 不 
同 。 这 里 呈现 的 只 是 算法 的 一 些 基 本 理念 ， 在 实现 时 还 有 太 多 的 细节 。 

衡量 一 条 规则 的 价值 问题 至 今 还 未 得 到 满意 的 解决 。 人 们 提议 了 许多 不 同 的 方法 ， 
有 些 是 明显 的 启发 式 规 则 ， 男 一 些 基 于 信息 理论 或 概率 。 然 而 ， 至 于 哪 种 才 是 最 好 的 方 
案 还 没有 达成 统一 意见 。Firnkranz 和 Flach 对 于 各 种 不 同 标准 做 了 深入 的 理论 研究 
(2005), 

基于 局 部 决策 树 的 规则 学 习 方 法 是 由 Frank 和 Witten (1998) 提出 的 。 它 所 产生 的 规 
则 集 的 准确 率 与 由 C4. 5 所 产生 的 结果 相当 ， 并 且 比 RIPPER 产生 的 规则 集 的 准确 率 更 高 ， 
当然 它 与 RIPPER 相 比 也 会 产生 更 大 的 规则 集 。 然 而 ， 它 的 主要 优点 不 在 于 性 能 上 ， 而 在 
于 它 的 简单 性 : 将 自 上 而 下 的 决策 树 归 纳 法 和 变 治 规则 学 习 法 结合 起 来 ， 它 不 需要 进行 全 
局 优化 却 能 获得 好 的 规则 集 。 

产生 包含 例外 的 规则 的 程序 是 由 Gaines 和 Compton (1995) 在 创建 归纳 系统 时 提出 的 
一 种 主张 ， 称 为 涟 波 下 降 (ripple-down) 规则 。 在 对 一 个 大 型 的 医学 数据 集 (22 000 个 实 
例 ，32 个 属性 ，60 个 类 别 ) 进行 试验 时 ， 他 们 发 现 用 含 例外 的 规则 来 表现 大 型 系统 ， 比 
用 普通 规则 来 表现 更 易于 理解 。 因 为 这 正 符 合 人 们 对 复杂 医学 诊断 所 使 用 的 思考 方式 。 
Richards 和 Compton (1998) 把 它们 描述 成 是 典型 知识 工程 的 另 一 种 方法 。 


6.3 关联 规则 


在 4.5 节 我 们 研究 了 Apriori 算法 用 于 生成 满足 最 小 支持 度 和 置信 和 度 阐 值 的 关联 规则 。 
Apriori 按照 生成 -测试 的 方法 寻找 频繁 项 集 ， 使 用 较 短 的 频繁 项 集 生 成 较 长 的 候选 项 集 。 
每 个 不 同 大 小 的 候选 项 集 都 需要 扫描 一 遍 数据 集 以 确定 它 是 否 超过 了 最 小 支持 度 阐 值 。 尽 
管 已 经 提出 了 一 些 对 于 该 算法 的 改进 ， 以 减少 扫描 数据 集 的 次 数 ， 但 是 生成 过 程 的 组 合 特 
性 会 使 算法 成 本 很 高 ， 尤 其 是 有 许多 项 集 或 者 项 集 很 大 时 。 当 使 用 较 低 的 支持 度 冰 值 时 ， 
即使 对 于 大 小 适中 的 数据 集 ， 这 两 种 情况 也 会 经 常 发 生 。 并 且 ， 无 论 使 用 多 高 的 支持 度 阔 
值 ， 如 果 数 据 太 大 不 能 装 和 人 主 存 ， 重 复 的 扫描 数据 集 就 会 很 麻烦 ， 况 且 大 多 数 关联 规则 的 
应 用 都 会 涉及 真正 大 量 的 数据 。 

使 用 合适 的 数据 结构 可 以 改善 这 些 问题 。 我 们 将 要 介绍 一 种 叫做 FP- growth 的 方法 ， 
该 方法 使 用 一 种 扩展 的 前 级 树 〈 频 繁 模式 树 ， 或 者 叫做 FP-tree) 在 主 存 中 存储 压缩 后 的 
数据 集 。 将 数据 集 映射 成 一 个 FP-tree 只 扫描 数据 集 两 遍 。 算 法 不 先生 成 候选 项 集 而 是 首 
先 以 递归 的 方式 使 树 增长 成 大 的 项 集 ， 然 后 在 整个 数据 集 上 进行 测试 。 


6.3.1 建立 频繁 模式 树 
与 Apriori 相似 ，FP- growth 算法 首先 统计 数据 集中 单个 项 (也 就 是 属性 - 值 对 ) 出 现 
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的 次 数 。 第 一 遍 扫描 数据 集 后 ， 树 结构 在 第 二 遍 扫 描 的 过 程 中 建立 。 开 始 时 ， 树 是 空 的 ， 
然后 逐渐 向 树 中 添加 数据 集中 的 实例 。 

得 到 能 够 快速 查找 大 项 集 的 压缩 的 树 结构 的 关键 在 于 ， 在 把 项 插入 到 树 结构 前 ， 将 每 
个 实例 中 的 项 按 它们 在 数据 集中 出 现 的 频率 降序 排列 ， 而 这 些 频 率 在 第 一 遍 扫描 数据 集 时 
已 经 记录 下 来 。 每 个 实例 中 不 满足 最 小 支持 度 立 值 的 单个 项 不 会 插入 到 树 中 ， 这 就 有 效 地 
将 它们 从 数据 集中 去 除了 。 目 的 是 希望 多 个 实例 将 会 共享 最 频繁 出 现 的 项 ， 最 终 在 树 的 根 
部 取得 高 度 的 压缩 效果 。 

我 们 用 表 6-1 所 示 的 天 气 数据 来 说 明 这 一 过 程 ， 使 用 的 最 小 支持 度 阅 值 是 6。 算 法 很 
复杂 ， 复 杂 到 远 远 超出 了 对 这 个 简单 例子 来 说 合理 的 范围 ， 但 是 一 个 简单 的 例子 是 最 好 的 
解释 算法 的 方法 。 表 6-1b 展示 了 单个 项 以 及 它们 的 频率 ， 这 是 第 一 遍 扫描 数据 集 得 到 的 。 
它们 以 降序 存储 ， 超 过 最 小 支持 度 疹 值 的 项 用 粗 体 表示 。 表 6- lc 展示 了 原始 的 实例 ， 它 
们 的 编号 与 表 6-1a 中 的 编号 相同 ， 且 每 个 实例 的 项 按 频率 的 降序 排列 。 最 后 ， 为 了 事先 
看 一 看 最 终结 果 ， 表 6-1d 展示 了 满足 最 小 支持 度 阔 值 的 两 个 多 项 集 。 它 们 与 表 6-1b 中 6 
个 加 粗 的 单项 集 一 起 构成 了 最 终 的 结果 : 总 共 8 个 项 集 。 为 了 得 到 表 6-1d 中 的 2 个 多 项 
集 ， 我 们 还 要 使 用 FP-tree 方法 做 大 量 的 工作 。 

表 6-1 为 插入 FP-tree 而 准备 的 天 气 数据 




















a) outlook temperature humidity windy play 
1 sunny hot high false no 
2 sunny hot high true no 
3 overcast hot high false yes 
4 rainy mild high false yes 
5 rainy cool normal false yes 
6 rainy cool normal true no 
7 overcast cool normal true yes 
8 sunny mild high false no 
9 sunny cool normal false yes 
10 rainy mild normal false yes 
11 sunny mild high true yes 
12 overcast mild normal true yes 
13 overcast hot normal false yes 
14 rainy mild high true no 

b) 
play - yes 9 
windy - false 8 
humidity - normal 7 
humidity = high 7 
windy - true 6 
temperature - mild 6 
play = no 5 
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( 续 ) 





outlook = sunny 
outlook = rainy 
temperature = hot 


temperature = cool 


A A A U ù 


outlook = overcast 





c) 





windy = false, humidity = high, play = no, 
outlook = sunny, temperature = hot 
humidity = high, windy = true, play = no, 











* outlook = sunny, temperature = hot 

3 play = yes, windy = false, humidity = high, 
temperature = hot, outlook = overcast 

4 play = yes, windy = false, humidity = high, 
temperature = mild, outlook = rainy 

5 play = yes, windy = false, humidity = normal, 
outlook = rainy, temperature = cool 

6 humidity = normal, windy = true, play - no, 
outlook = rainy, temperature = cool 

7 play = yes, humidity = normal, windy = true, 
temperature = cool, outlook = overcast 

8 windy - false, humidity - high, temperature - mild, 
play = no, outlook = sunny 

9 play = yes, windy = false, humidity = normal, 
outlook = sunny, temperature = cool 

10 play = yes, windy = false, humidity = normal, 
temperature = mild, outlook = rainy 

T play - yes, humidity - normal, windy - true, 
temperature = mild, outlook = sunny 

12 play = yes, humidity = high, windy = true, 
temperature = mild, outlook = overcast 

13 play = yes, windy = false, humidity = normal, 
temperature = hot, outlook = overcast 

14 humidity = high, windy = true, temperature = mild, 
play = no, outlook = rainy 

d) 
play = yes and windy = false 6 
play = yes and humidity = normal 6 


注 : a) 原始 数据 ，b) REMEHA, 频繁 项 集 加 粗 ，c) 每 个 实例 中 的 数据 按 频率 排序 ，d) 两 个 多 项 频繁 项 集 


图 6-8a 展示 了 最 小 支持 度 为 6， 使 用 这 些 数据 最 终 得 到 的 FP-tree 结构 。 树 本 身 用 实 
线 箭头 表示 。 每 个 结 点 的 计数 表示 向 上 直到 该 结 点 (包括 该 结 点 ) 排序 好 的 项 的 前 缀 在 数 
据 集中 出 现 的 次 数 。 例 如 ， 沿 着 树 左 数 第 三 个 分 支 ， 我 们 可 以 看 到 ， 排 序 后 以 前 缀 humid- 
ity = high 开始 的 实例 有 两 个 ， 也 就 是 表 6-1c 中 第 二 个 和 最 后 一 个 实例 。 沿 着 那个 分 支 继 
续 向 下 ， 下 一 个 结 点 记录 了 同样 的 有 两 个 实例 的 最 频繁 项 是 windy = true。 分 支 最 底层 的 结 
点 同样 显示 了 两 个 实例 中 的 一 个 ( 即 表 6-1c 中 最 后 一 个 实例 ) 实例 包含 temperature = 
mild。 另 一 个 实例 ( 即 表 6-1c 中 第 二 个 实例 ) 在 这 个 阶段 被 去 除 ， 因 为 它 的 下 一 个 最 频 
繁 项 不 满足 最 小 支持 度 约束 ， 因 此 它 从 树 中 去 除 。 
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图 的 左 侧 ， 一 个 “标题 表 ”(header table) 展示 了 数据 集 ( 见 表 6-1b) 中 单个 项 的 频 
率 。 这 些 项 按 降序 排列 ， 并 且 只 包括 了 满足 最 小 支持 度 的 项 。 标 题 表 中 的 每 一 项 指向 它 在 
树 中 第 一 次 出 现 的 位 置 ， 树 中 后 续 的 相同 名 称 的 项 连接 在 一 起 形成 一 个 列表 。 这 些 列表 以 
标题 表 中 的 项 为 表 头 ， 在 图 6-8a 中 用 虚线 箭头 表示 。 

从 树 中 可 以 很 明显 地 看 出 ， 只 有 两 个 结 点 满足 最 小 支持 度 靖 值 ， 分 别 是 最 左 侧 分 支 中 
的 项 集 play = yes (计数 为 9) Al play = yes 以 及 windy = false (计数 为 6) 。 标 题 表 中 的 每 一 
项 本 身 都 是 满足 阔 值 的 单项 集 。 这 样 就 得 到 了 表 6-1b 中 加 粗 的 项 以 及 表 6-1d 中 的 第 一 个 
项 集 。 我 们 已 经 事先 知道 了 结果 ， 可 以 看 到 只 有 一 个 项 集 〈 表 6-1d 中 第 二 个 ) 需要 去 发 
现 。 但是， 在 图 6-8a 的 数据 结构 中 没有 任何 线索 ， 我 们 还 需要 做 大 量 的 工作 来 发 现 它 。 


6.3.2 寻找 大 项 集 


从 标题 表 到 树 结构 的 链接 的 作用 是 帮助 遍历 树 结构 ， 以 便 找 到 除了 已 经 在 树 中 的 两 个 
项 集 之 外 的 其 他 大 项 集 。 使 用 分 治 法 递归 地 处 理 树 以 得 到 逐渐 增 大 的 项 集 。 每 个 标题 表 的 
列表 从 表 的 底部 向 上 依次 遍历 。 实 际 上 ， 可 以 以 任何 顺序 处 理 标题 表 ， 但 是 很 容易 想到 先 
处 理 树 中 最 长 的 路 径 ， 这 对 应 于 频率 最 低 的 项 。 

从 标题 表 的 底部 开始 ， 我 们 可 以 立刻 将 temperature = mild 加 入 大 项 集 列表 中 。 图 6-8b 
展示 了 下 一 步 的 结果 ， 即 数据 集中 包含 temperature = mild 的 实例 对 应 的 FP-tree。 这 个 树 不 
是 通过 重新 扫描 数据 集 创 建 ， 而 是 进一步 对 图 6-8a 中 的 树 进行 如 下 处 理 得 到 的 。 

为 了 检查 是 否 有 包含 temperature = mild 的 更 大 的 项 集 ， 我 们 沿 着 标题 表 的 链接 进行 。 
这 使 得 我 们 能 找 出 所 有 包含 temperature = mild 的 实例 。 将 原始 树 中 满足 条 件 temperature = 
mild 的 实例 的 计数 映射 ， 就 得 到 了 图 6-8b 中 的 新 树 。 其 过 程 是 从 结 点 temperature = mild 向 
上 传播 计数 ， 每 个 结 点 的 计数 是 它 所 有 子 结 点 的 计数 之 和 。 

快速 地 检查 这 个 新 FP- tree 的 标题 表 ， 就 可 以 知道 模式 temperature = mild 不 能 增 大 ， 
因为 没有 任何 满足 条 件 temperature = mild 的 项 能 达到 最 小 支持 度 闪 值 。 注 意 ， 有 必要 创建 
图 6-8b 中 的 完整 的 树 ， 因 为 从 底 向 上 创建 树 很 快 ， 并 且 左 侧 标题 表 中 的 数值 是 通过 树 的 
所 有 结 点 来 计算 的 。 这 里 就 出 现 了 递归 ， 递 归 地 处 理 原 始 FP-tree 中 标题 表 中 剩余 的 项 。 

图 6-8c 展示 了 第 二 个 例子 ， 沿 着 标题 表 humidity = normal 的 链接 最 终 得 到 FP-tree。 这 里 
结 点 windy =false 的 计数 为 4， 表 示 原 始 树 中 该 结 点 左 侧 的 分 支 有 4 个 实例 满足 humidity = 
normal。 同 样 ， 结 点 play = yes 的 计数 为 6， 对 应 原始 树 中 结 点 windy = false 的 4 个 实例 ， 以 
及 图 6-8a 中 以 play = yes 为 根 的 子 树 中 间 分 支 满足 humidity = normal 的 两 个 实例 。 

对 该 FP-tree 标题 表 的 处 理 表明 ， 项 集 humidity = normal 可 以 增长 以 便 包 含 play = yes, 
因为 这 两 个 同时 出 现 了 6 次 ， 达 到 了 最 小 支持 度 靖 值 。 这 对 应 于 表 6-1d 中 的 第 二 个 项 集 ， 
这 已 经 是 最 终 的 结果 了 。 但 是 为 了 确定 没有 其 他 满足 条 件 的 项 集 ， 还 是 有 必要 继续 处 理 
图 6-8a 中 的 整个 标题 表 。 

一 旦 树 的 递归 挖掘 过 程 完成 ， 所 有 满足 最 小 支持 度 阅 值 的 大 项 集 便 都 被 找 出 来 了 。 然 
后 使 用 4. 5 节 所 述 的 方法 创建 关联 规则 。 研 究 表明 在 寻找 大 项 集 上 ，FP- growth 算法 比 
Apriori 快 一 个 量 级 ， 尽 管 这 个 速度 还 要 取决 于 具体 实现 以 及 数据 集 的 特性 。 


6. 3.3 讨论 


递归 地 创建 投影 FP-tree 的 过 程 可 以 使 用 前 缀 树 结构 有 效 地 实现 ， 该 前 缀 树 的 每 个 结 
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点 以 及 标题 表 中 的 每 项 都 要 包含 一 个 由 递归 深度 索引 的 频率 列表 。 树 本 身 通常 比 原始 数据 
集 小 很 多 ， 如 果 数 据 集 很 稠密 ， 那 么 这 会 达到 很 高 的 压缩 程度 。 相 对 于 每 个 结 点 需要 维持 
的 指针 以 及 计数 来 说 这 是 值得 的 。 只 有 当 支 持 度 阔 值 很 小 时 ，FP- tree 的 压缩 能 力 才 会 降 
低 。 在 这 种 情况 下 ， 树 会 变 得 很 稠密 ， 共 享 结 点 很 少 。 对 于 频繁 模式 树 超过 主 存 容量 的 大 
规模 数据 集 来 说 ， 已 经 为 关系 数据 库 系统 开发 出 了 使 用 索引 技术 来 构建 驻 留 硬盘 的 树 。 

寻找 大 项 集 而 不 生成 候选 项 集 的 FP- tree 数据 结构 和 FP- growth 算法 ， 是 由 Han 等 
(2000) 在 Zaki (1997) 的 前 期 工作 的 基础 上 提出 来 的 ; Han 4 (2004) 给 出 了 一 个 更 易 
于 理解 的 描述 。 它 在 许多 方面 都 进行 了 扩展 。Wang 等 (2003) 提出 了 一 个 叫做 CLOSET + 的 
算法 ， 用 它 来 控 掘 闭 项 集 ， 即 没有 相同 支持 度 的 真 超 集 的 项 集 。 本 质 上 ， 找 出 大 的 闭 项 集 和 
找 出 所 有 的 大 项 集 所 得 到 的 信息 是 一 样 的 ， 但 是 这 会 减少 元 余 规则 ， 因 此 会 减少 用 户 检查 控 
掘 结 果 时 面 对 的 工作 。 广 义 序 贯 模式 (Generalized Sequential Patterns, GSP) 是 基于 Apriori 
算法 用 来 挖掘 数据 库 中 事件 序列 模式 的 方法 (Srikant and Agrawal, 1996) 。 与 FP- growth 相似 
的 用 于 挖掘 事件 序列 的 算法 有 PrefixSpan (Pei $, 2004) 和 CloSpan (Yan $$, 2003), ， 对 于 
图 模式 的 挖掘 算法 有 gSpan (Yan 和 Han, 2002) 和 CloseGraph (Yan 和 Han, 2003), 

Ceglar 和 Roddick (2006) 对 关联 规则 挖掘 进行 了 综述 。 有 些 作 者 将 关联 规则 挖掘 和 
分 类 结合 在 一 起 。 例 如 ，Liu 等 (1998) 挖掘 一 种 关联 规则 ， 叫 做 “分 类 关联 规则 ”， 并 
且 在 这 些 规则 的 基础 上 使 用 基于 关联 的 分 类 (Classification Based on Associations, CBA) 
技术 建立 了 分 类 器 。Mutter 等 (2004) 使 用 分 类 来 评估 基于 置信 和 度 的 关联 规则 挖掘 的 结 
果 ， 发 现 当 关注 运行 时 间 和 规则 集 大 小 时 ， 标 准 的 分 类 规则 学 习 器 一 般 优 于 CBA, 


6.4 扩展 线性 模型 


4.6 节 介 绍 了 如 何在 所 有 属性 都 为 数值 型 的 情形 下 ， 使 用 简单 的 线性 模型 进行 分 类 。 
它们 最 大 的 缺点 是 只 能 表示 存在 于 类 之 间 的 线性 边界 ， 对 于 很 多 实际 应 用 来 说 ， 这 未 免 太 
过 简单 了 。 支 持 向 量 机 能 利用 线性 模型 来 实现 非 线性 分 类 边界 〈 虽 说 支持 向 量 机 (support 
vector machine) 是 一 个 应 用 广泛 的 术语 ， 却 有 点 用 词 不 当 ， 实 际 上 是 算法 ， 而 不 是 机 器 ) 。 
这 怎么 可 能 呢 ? 诀窍 很 简单 ， 将 输入 进行 非 线 性 映射 的 转换 ， 换 句 话说 ， 将 实例 空间 转换 
为 一 个 新 的 空间 。 由 于 使 用 了 非 线性 映射 ， 所 以 在 新 空间 里 的 一 条 直线 ， 在 原来 的 空间 里 
看 起 来 却 不 是 直 的 。 在 新 空间 里 建立 的 线性 模型 可 以 代表 在 原来 空间 里 的 非 线 性 决策 
边界 。 

想象 在 4. 6 节 介 绍 的 普通 线性 模型 中 直接 应 用 这 个 想法 。 例 如 ， 原 先 的 属性 集 可 以 替 
换 成 它们 所 能 组 成 的 所 有 n 次 乘积 所 形成 的 属性 集 。 举 例 来 说 ， 对 于 两 个 属性 ， 所 能 组 成 
的 所 有 3 次 乘积 是 

x= wa + wa a, + w4d,d2 十 10,05 
RE x BAR, a, 和 a, 是 两 个 属性 值 ， 有 4 个 权 值 w 需要 学 习 。 如 4. 6 节 所 述 ， 结 果 可 
用 于 分 类 。 针 对 每 个 类 各 训练 一 个 线性 系统 ， 将 一 个 未 知 的 实例 归 到 输出 结果 值 x 最 大 的 
类 ， 这 是 多 响应 线性 回归 的 标准 方法 。a, 和 a, 是 测试 实例 的 属性 值 。 

为 了 要 在 这 些 乘积 所 跨越 的 空间 上 形成 一 个 线性 模型 ， 每 个 训练 实例 通过 计算 它 的 两 
个 属性 值 所 有 可 能 的 3 次 乘积 ， 被 映射 到 新 的 空间 。 学 习 算 法 也 因此 被 应 用 到 转换 后 的 实 
例 集 上 。 为 了 要 对 一 个 实例 进行 分 类 ， 在 分 类 前 也 要 对 实例 先进 行 相同 的 转换 处 理 。 没 有 
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什么 可 以 阻止 我 们 增添 更 多 的 合成 属性 。 比 如 ， 如 果 再 包括 一 个 常数 项 、 原 始 属性 自身 以 
及 所 有 的 两 个 属性 的 乘积 ， 总 共 将 产生 10 个 需要 学 习 的 权 值 (或 者 ， 增 加 一 个 额外 的 属 
性 ， 属 性 值 永远 是 一 个 常数 ， 效 果 也 是 一 样 的 ) 。 实 际 上 ， 达 到 足够 高 的 次 数 的 多 项 式 能 
以 任何 要 求 的 精确 度 接近 决策 边界 。 

似乎 好 的 难以 置信 ， 的 确 如 此 。 你 也 许 已 猜测 到 ， 在 任何 现实 环境 中 由 转换 引入 的 大 
量 系数 会 使 这 个 过 程 出 现 问题 。 第 一 个 障碍 是 计算 复杂 度 。 假 设 原始 数据 集中 有 10 个 属 
性 ， 我 们 要 包含 所 有 的 5 次 乘积 ， 那 么 这 个 学 习 算法 必须 要 确定 2000 多 个 系数 。 如 果 对 
于 线性 回归 ， 运 行 时 间 以 属性 数量 的 立方 来 计算 ， 那 么 训练 将 无 法 实现 。 这 是 一 个 实用 性 
问题 。 第 二 个 问题 是 个 基本 问题 ， 过 度 拟 合 。 如 果 相 对 于 训练 实例 的 数量 ， 系 数 数目 过 
多 ， 那么 所 形成 的 模型 会 “过 度 非 线性 化 ”， 将 对 训练 数据 过 度 拟 合 。 模 型 中 的 参数 实在 
是 太 多 了 。 


6.4.1 最 大 间隔 超 平面 


支持 向 量 机 能 解决 这 两 个 问题 。 支 持 向 量 机 是 基于 寻找 一 种 特别 的 线性 模型 ， 最 大 间隔 
超 平面 (maximum margin hyperplane) 的 算法 。 我 们 已 经 知道 了 什么 是 超 平面 ， 它 只 是 线性 
模型 的 另 一 个 用 词 。 为 了 直观 感受 最 大 间隔 超 平面 ， 想 象 一 个 含有 两 个 类 的 数据 集 ， 这 两 个 
类 是 线性 可 分 的 ， 也 就 是 说 在 实例 空间 上 存在 一 个 超 平 
面 能 对 所 有 的 训练 实例 进行 正确 分 类 。 最 大 间隔 超 平面 
是 一 个 能 使 两 个 类 之 间 达 到 最 大 限度 分 离 的 超 平面 ， 它 
对 两 个 类 都 是 尽 可 能 地 不 靠近 。 图 6-9 给 出 了 一 个 例子 ， 
两 个 类 分 别 用 空心 圈 和 实心 圈 来 表示 。 从 技术 上 说 ， 一 
系列 点 的 凸 包 (convex hull) 是 最 紧凑 的 凸 多 边 形 ， 它 
的 轮廓 是 通过 将 每 个 点 与 其 他 所 有 的 点 连接 而 形成 的 。 
我 们 已 经 假设 这 两 个 类 是 线性 可 分 隔 ， 它 们 的 凸 包 不 能 
重 释 。 在 所 有 能 分 隔 这 两 个 类 的 超 平面 中 ， 最 大 间隔 超 
平面 是 其 中 离 两 个 凸 包 距 离 尽 可 能 远 的 那个 ， 它 垂直 平 
分 两 个 凸 包间 距离 最 短 的 线段 〈 见 图 6-9 中 的 虚线 ) 。 图 6-9 最 大 间隔 起 平面 

最 靠近 最 大 间隔 超 平面 的 实例 ， 即 距离 超 平面 最 近 的 实例 ， 称 为 支持 向 量 (support 
vector) 。 每 个 类 至 少 有 一 个 支持 向 量 ， 经 常 是 多 个 。 重 要 的 是 支持 向 量 能 为 学 习 问 题 定义 
唯一 的 最 大 间隔 超 平面 。 给 出 两 个 类 的 支持 向 量 ， 我 们 可 以 很 容易 地 构造 最 大 间隔 超 平 
面 。 其 他 的 训练 实例 都 是 无 关 紧要 的 ， 即 使 被 去 除 也 不 会 改变 超 平面 的 位 置 。 

在 含有 两 个 属性 的 情况 下 ，- 一 个 分 隔 两 个 类 的 超 平面 可 表示 为 

X =W) tW,a, 十 20Q2 
其 中 a, Ala, 是 两 个 属性 值 ， 有 3 个 权 值 w 需要 学 习 。 然 而 ， 定 义 最 大 间隔 超 平面 的 
等 式 也 可 以 从 支持 向 量 的 角度 ， 用 另 一 种 形式 表示 。 训 练 实例 的 类 值 y 是 1 (表示 yes, 
属于 这 个 类 ) ,或 者 -1 (表示 no， 不 属于 这 个 类 ) 。 那 么 最 大 间隔 超 平面 就 是 
x=b+ 2: a,y,a(i) "a 
i 是 支持 向 量 
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这 里 ，y 是 训练 实例 a(i) 的 类 别 值 ; 5 和 w 是 需要 由 学 习 算法 来 决定 的 数值 参数 。 注 
Bali) 和 a 是 向 量 。 向 量 a 代表 一 个 测试 实例 ， 如 在 前 面 公式 中 向 量 la, a] 代表 
一 个 测试 实例 一 样 。 向 量 a(i) 是 支持 向 量 ， 即 图 6-9 中 被 圈 起 来 的 点 ， 它 们 是 从 训练 
集中 挑选 出 来 的 。a(i). a 代表 了 测试 实例 和 一 个 支持 向 量 的 标量 积 (点 积 ) : a (D - 
a= Y,a(i)ja, 。 如 果 你 对 标量 积 的 概念 不 熟悉 ， 你 依然 能 理解 随后 的 要 点 ， 只 要 把 


a(i) 看 做 是 第 :个 支持 向 量 的 整个 属性 值 的 集合 。 最 后 ，” 和 o, 是 决定 超 平面 的 参数 ， 
就 像 在 前 面 一 个 公式 中 的 权 值 we w 和 w 一 样 ， 是 决定 超 平面 的 参数 。 

寻找 实例 集 的 支持 向 量 ， 并 决定 参数 b 和 aw ， 属 于 标准 的 优化 问题 ， 称 为 约束 二 
次 优化 (constrained quadratic optimization) 。 有 现成 的 软件 包 可 用 来 解决 这 些 问 题 ( 参 
JL Fletcher，1987， 介 绍 了 全 面 、 实 用 的 解决 方法 ) 。 然 而 ， 如 果 采 用 特别 的 算法 来 训 
练 支持 向 量 机 ， 可 降低 计算 复杂 度 、 加 速 学 习 过 程 ， 但 这 些 算 法 的 详细 内 容 不 在 本 书 
讨论 的 范围 内 〈 见 Platt，1998)。 











6.4.2 非 线性 类 边界 


我 们 是 因为 断言 支持 向 量 机 可 用 于 建 模 非 线性 分 类 边界 而 引入 介绍 支持 向 量 机 的 。 但 
到 目前 为 止 ， 我 们 只 讲述 了 线性 的 情况 。 考 虑 在 确定 最 大 分 隔 超 平面 之 前 ， 对 训练 集 数 据 
进行 如 前 文 所 述 的 属性 转换 将 会 发 生 什 么 。 直 接应 用 这 种 转换 来 建立 线性 模型 ， 存 在 两 个 
问题 : 一 个 是 计算 复杂 度 ， 另 一 个 是 过 度 拟 合 。 

使 用 支持 向 量 ， 不 太 可 能 发 生 过 度 拟 合 。 原 因 是 过 度 拟 合 与 不 稳定 性 是 密切 相关 的 ， 
改变 一 个 或 两 个 实例 向 量 会 引起 大 范围 的 决策 边界 的 变化 。 但 最 大 间隔 超 平面 则 相对 比较 
RE: 只 有 当 增 加 或 去 除 的 训练 实例 是 支持 向 量 时 ， 边 界 才 会 改变 ， 即 使 在 经 非 线 性 转换 
的 高 维 空间 也 是 如 此 。 过 度 拟 合 是 决策 边界 过 度 灵活 、 过 度 复杂 造成 的 。 支 持 向 量 是 整个 
训练 点 集 的 全 局 代表 ， 通 常 只 是 它们 中 的 极 小 部 分 ， 很 少 会 过 度 复杂 。 因 此 过 度 拟 合 不 太 
可 能 发 生 。 

计算 复杂 度 又 如 何 呢 ? 这 仍然 是 个 问题 。 假 设 转换 的 空间 是 高 维 空间 ， 那 么 转换 后 的 
支持 向 量 和 测试 实例 由 许多 分 量 组 成 。 根 据 上 面 的 等 式 ， 每 次 对 一 个 实例 分 类 时 ， 必 须 计 
算 它 和 所 有 支持 向量 的 标量 积 。 在 经 非 线 性 映射 所 得 到 的 高 维 空间 上 ， 这 是 相当 耗 时 的 。 
要 得 到 标量 积 ， 涉 及 对 每 个 属性 进行 乘积 运算 和 求 和 运算 ， 并 且 新 空间 的 属性 数目 可 能 是 
庞大 的 。 问 题 不 仅仅 发 生 在 分 类 过 程 中 ， 在 训练 过 程 中 也 存在 这 个 问题 ， 因 为 优化 算法 必 
须 非常 频繁 地 进行 同样 的 标量 积 计算 。 幸 运 的 是 ， 可 以 在 进行 非 线 性 映射 之 前 ， 使 用 叫做 
基于 标量 积 的 核 函 数 来 对 原始 属性 集 的 标量 积 进行 计算 。 

上 述 等 式 的 一 个 高 维 表 达 式 可 以 简化 为 

x=b+ Ya;,y;(a(i) +a)" 
这 里 n 是 所 选 的 转换 系数 (我 们 先前 的 例子 中 用 的 是 3)。 如 果 将 项 (a(i) . a)" JE 
开 ， 将 发 现 它 包含 了 当 测 试 和 训练 向 量 按 涵盖 所 有 可 能 的 次 乘积 转换 ， 然 后 取 标量 














第 6 章 FA: 真正 的 机 器 学 习 方 案 161 








积 作为 结果 所 涉及 的 所 有 高 维 项 (如果 计算 ,你 会 注意 到 一 些 常 量 因 子 ， 即 二 项 式 系 
数 ， 被 引入 。 但 这 不 要 紧 ， 我 们 关注 的 是 空间 维 数 ， 常 量 只 是 关系 到 坐标 轴 刻 度 比 
例 )。 

由 于 在 数学 上 的 等 价 关 系 ， 所 以 标量 积 可 以 在 原先 的 低 维 空间 上 进行 计算 ， 因 此， 
问题 就 解决 了 。 在 实现 时 ， 可 选用 约束 二 次 优化 软件 包 ， 将 每 次 求 a(i): a BS TERR 
HR (ali) +a)" 的 值 。 就 是 这 么 简单 ， 因 为 在 优化 和 分 类 算法 中 ， 这 些 向 量 都 只 是 
以 标量 积 的 形式 参与 。 训 练 集 向 量 ， 包 括 支 持 向 量 ， 以 及 测试 实例 ， 在 计算 过 程 中 都 
保留 在 原来 的 低 维 空间 里 。 


函数 (x y)"， 计 算 向 量 x 和 向 量 y 的 标量 积 并 将 结果 上 升 为 n KE, RAS HA 
(polynomial kernel) 函数 。 选 择 的 好 方法 是 从 1 (一 个 线性 模型 ) 开始 ， 然 后 递增 ， 直 
到 估计 误差 不 再 有 改进 为 止 。 通 常 ， 相 当 小 的 值 就 足够 了 。 为 了 包含 低 次 项 ， 我 们 可 以 使 
用 核 (x :y+1)"。 

也 可 以 换 用 其 他 的 核 函 数 来 实现 不 同 的 非 线 性 映射 。 两 个 经 常 建议 使 用 的 核 函 数 是 径 
向 基 函 数 (Radial Basis Function, RBF) 和 sigmoid 4 HA (sigmoid kernel.) 。 哪 一 种 能 产 
生 最 好 的 效果 取决 于 应 用 ， 但 在 实践 中 它们 的 差别 并 不 很 大 。 有 趣 的 是 ， 使 用 RBF PR 
数 的 支持 向 量 机 只 是 神经 网 络 的 一 种 ， 称 为 径 向 基 函 数 网 络 (RBF network) (我 们 将 在 下 
面 讨论 ) ， 而 使 用 sigmoid 核 函 数 的 支持 向 量 机 实现 的 是 另 一 种 神经 网 络 ， 即 带 一 个 隐 层 的 
多 层 感知 机 (也 将 在 下 面 讨论 )。 

在 数学 上 ， 任 何 能 写成 K(x, y) 2 (x) Py) 形式 的 函数 K(x，y) 都 是 一 个 核 函 
数 ， 其 中 e 是 将 实例 映射 到 (潜在 的 高 维 ) 特征 空间 的 函数 。 换 句 话 说 ， 核 函数 表示 一 
个 由 更 创建 的 特征 空间 内 的 点 积 。 在 实际 应 用 中 ， 人 们 也 会 使 用 一 些 不 是 真正 核 函 数 的 
函数 (例如 某 些 参数 条 件 下 的 sigmoid (PAL). SIA BIC LARUE, (Aix thE BR 
精确 的 分 类 器 。 

在 本 节 中 ,我们 都 假设 训练 数据 是 线性 可 分 的 一 一 在 实例 空间 或 在 经 过 非 线 性 映射 的 
新 空间 。 事 实证 明 支 持 向 量 机 可 以 推广 到 训练 数据 不 可 分 的 情形 。 最 终 的 实现 要 给 上 述 系 
Ha, 设 定 一 个 上 限 。 不 幸 的 是 ， 这 个 参数 需要 用 户 自己 选择 ， 而 最 好 的 设置 只 有 从 实验 
中 得 出 。 而 且 在 大 多 数 情 况 下 ， 不 可 能 事先 判定 一 个 数据 集 是 否 线性 可 分 。 

最 后 ， 我 们 必须 提醒 的 是 ， 和 其 他 的 学 习 方 法 (如 决策 树 ) 相 比 较 ， 即 使 是 最 快 的 支 
持 向 量 机 训练 算法 应 用 在 非 线性 情形 下 也 是 很 慢 的 。 然 而 ， 由 于 它们 能 得 到 微妙 复杂 的 决 
策 边 界 ， 所 以 通常 能 产生 精确 度 很 高 的 分 类 器 。 


6.4.3 支持 向 量 回归 


最 大 间隔 超 平 面 的 概念 只 能 应 用 于 分 类 。 但 是 ， 支 持 向 量 机 算法 已 发 展 成 能 适用 于 数 
值 预测 ， 它 共享 许多 在 分 类 应 用 中 所 遇 到 的 特性 : 产生 一 个 通常 只 是 由 少许 支持 向 量 来 表 
示 的 模型 ， 并 可 以 利用 核 函数 将 其 应 用 于 非 线 性 问题 中 。 与 介绍 普通 的 支持 向 量 机 一 样 ， 
我 们 只 讨论 它 所 引入 的 概念 ， 而 不 具体 描述 算法 实际 是 如 何 工 作 的 。 

和 4.6 节 中 讨论 的 线性 回归 一 样 ， 基 本 理念 是 通过 使 预测 误差 最 小 化 来 寻找 一 个 能 较 
好 地 接近 训练 数据 点 的 函数 。 主 要 的 差别 在 于 所 有 在 用 户 指定 参数 e 之 内 的 偏差 都 被 简单 
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地 丢弃 了 。 同 样 ， 在 进行 误差 最 小 化 时 ， 由 于 同时 试图 使 函数 平面 度 最 大 化 ， 所 以 过 度 拟 
合 的 风险 降低 了 。 另 一 个 差别 在 于 被 最 小 化 的 通常 是 预测 值 的 绝对 误差 ， 用 以 替换 线性 回 
归 中 所 用 的 平方 误差 (但 是 也 有 使 用 平方 误差 的 算法 版 本 )。 

用 户 指 定 参 数 = 是 在 回归 函数 周围 定义 一 个 管道 ， 在 这 个 管道 内 的 误差 将 被 忽略 : 对 
于 线性 支持 向 量 回 归 ， 这 个 管道 是 个 圆柱 体 。 如 果 所 有 的 训练 点 都 在 宽度 为 2e 的 管道 内 ， 
那么 算法 输出 一 个 位 于 最 平 的 管道 中 央 的 函数 。 这 个 情况 下 ， 总 的 误差 为 0。 图 6- 10a 展 
示 了 一 个 含有 1 个 属性 、1 个 数值 型 类 和 8 个 实例 的 回归 问题 。 在 这 个 例子 中 ，e RAI, 
因此 回归 函数 周围 管道 宽度 (图 6-10 中 由 虚线 画 出 ) 为 2。 图 6-10b 展示 的 是 当 e 设 为 2 
时 的 学 习 结 果 。 正 如 你 所 见 ， 较 宽 的 管道 可 能 产生 一 个 较 平 的 函数 。 


10 





0 2 4 6 8 10 
属性 
a) e=l 

10 
8 
6 

x 
4 
2 
90 2 4 6 8 10 

属性 
c) &e-0.5 


6-10 支持 向 量 回归 


e 值 控制 了 函数 与 训练 集 数据 的 拟 合 程度 。 这 个 值 太 大 将 产生 一 个 毫 无 意义 的 预测 
器 。 极 端的 情形 是 ， 当 2e 超出 训练 数据 类 值 的 范围 时 ， 回 归 线 是 水 平 的 ， 并 且 算 法 的 预 
测 结果 总 是 类 的 平均 值 。 另 一 方面 ，s 值 太 小 ， 也 许 不 存在 能 包含 所 有 训练 数据 的 管道 。 
在 这 种 情况 下 ， 部 分 训练 数据 点 将 出 现 非 零 误差 ,这 里 预测 误差 和 管道 的 平面 度 之 间 就 存 
在 一 个 折 中 问题 。 在 图 6-10c F, s 设 为 0.5， 而 没有 一 个 宽度 为 1 的 管道 可 以 包含 所 有 的 
数据 。 

在 线性 情况 下 ， 支 持 向 量 回归 函数 可 以 写成 


x=b+ 2 o;a(i) "a 
mon 


i 是 支持 向 
如 同 分 类 问题 一 样 ， 在 处 理 非 线性 问题 时 ， 标 量 积 可 以 用 核 函 数 来 代替 。 支 持 向 量 是 所 有 
那些 不 是 确实 落 和 人 管道 内 的 点 ， 即 那些 在 管道 外 及 管道 边缘 上 的 点 。 与 分 类 问题 一 样 ， 所 
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有 其 他 点 的 系数 为 0， 都 可 以 从 训练 集中 去 除 而 不 改变 学 习 的 结果 。 与 分 类 问题 不 同 的 是 ， 
这 里 o, 可 能 是 负 的 。 

正如 我 们 先前 提 到 的 ， 在 使 误差 最 小 化 的 同时 ,算法 还 要 试图 使 回归 函数 平面 度 最 大 
化 。 在 图 6-10a、b 中 ， 存 在 包含 所 有 训练 数据 点 的 管道 ， 而 算法 只 输出 其 中 最 平 的 管道 。 
但 在 图 6-10e 中 ,不 存在 误差 为 0 的 管道 ， 在 预测 误差 和 管道 平面 度 之 间 要 进行 权衡 。 这 
个 权衡 是 通过 对 系数 a; 的 绝对 值 设 定 上 限 值 C 来 控制 的 。 这 个 上 限 值 约束 了 支持 向 量 对 
回归 函数 形状 的 影响 ， 它 是 除了 e 外 ， 必 须 由 用 户 设 定 的 男 一 个 参数 。C 值 越 大 ， 函 数 越 
与 数据 拟 合 。 在 s =0 的 情况 下 ， 算 法 只 是 简单 地 执行 在 系数 受 限 条 件 下 的 最 小 绝对 误差 
回归 ， 所 有 的 训练 数据 都 成 为 支持 向 量 。 相 反 ， 如 果 e 足够 大 而 能 使 管道 包含 所 有 的 训练 
数据 ， 那 么 误差 为 0， 不 需要 进行 权衡 ， 算 法 输出 的 是 包含 数据 且 与 C 值 无 关 的 最 平 的 
管道 。 


6.4.4 核 岭 回归 


第 4 章 已 经 介绍 了 用 于 数值 预测 的 经 典 最 小 平方 线性 回归 技术 。 上 一 节 ， 我 们 见 到 了 
支持 向 量 机 用 于 回归 的 能 力 ， 以 及 如 何 用 核 函 数 来 代替 支持 向 量 公式 中 的 点 积 运算 来 解决 
非 线 性 问题 的 ， 这 通常 叫做 “ 核 技巧 "。 对 于 使 用 平方 损失 函数 的 经 典 线性 回归 ， 只 需要 
进行 简单 的 矩阵 操作 就 能 得 到 模型 ， 但 是 由 用 户 指定 损失 参数 e 的 支持 向 量 回归 则 不 行 。 
最 好 能 将 核 技巧 的 力量 和 标准 最 小 平方 回归 的 简单 结合 在 一 起 。 核 岭 回归 (Kernel ridge 
regression) 就 是 这 样 。 与 支持 向 量 不 同 ， 它 并 不 忽略 小 于 e 的 误差 ， 并 且 用 平方 误差 代替 
绝对 误差 。 l 


第 4 章 中 对 于 一 个 给 定 的 测试 实例 a， 线 性 回归 模型 的 预测 类 别 的 值 表示 为 所 有 属 
性 值 的 加 权 和 ， 而 这 里 它 表 示 为 每 个 训练 实例 aj 与 测试 实例 的 点 积 的 加 权 和 : 


Y oa: a 
这 里 我 们 假设 函数 通过 原点 ， 没 有 截 距 。 对 于 每 个 训练 实例 都 包含 一 个 系数 a, RTS 
是 涵盖 所 有 实例 而 不 是 只 包含 支持 向 量 这 点 外 ， 它 与 支持 向 量 机 还 是 十 分 相似 的 。 同 
样 ， 可 以 用 核 函数 代替 点 积 来 产生 一 个 非 线性 模型 。 
模型 在 训练 数据 上 的 预测 平方 误差 的 和 如 下 
并 (oa 
与 第 4 章 相同 ， 这 是 二 次 损失 函数 ， 同 样 我 们 通过 选择 合适 的 w 以 使 它 达 到 最 小 
值 。 但 是 ， 这 对 于 每 个 训练 实例 都 会 有 一 个 系数 ， 而 不 是 每 个 属性 对 应 一 个 系数 ， 并 
且 大 多 数 数据 集中 实例 的 数量 要 远 远大 于 属性 的 数量 。 这 意味 着 当 使 用 核 函 数 代 替 点 
积 来 获得 非 线性 模型 时 ， 将 会 有 很 大 的 对 训练 数据 过 度 拟 合 的 风险 。 
这 就 是 核 岭 回归 中 “ 岭 ” 的 由 来 。 此 处 我 们 没有 最 小 化 二 次 损失 函数 ， 而 是 通过 
引入 惩罚 项 








n n 2 n 
Y (»- Zaa -a ) * A Y a,0,4; + a; 
1 j-0 ij=l 
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从 而 在 拟 合 程度 和 模型 复杂 度 之 间 进 行 权 衡 。 公 式 中 第 二 个 求 和 部 分 会 惩罚 大 的 系数 。 
这 会 防止 模型 为 单个 训练 实例 赋予 很 大 的 权 值 而 过 于 强调 单个 训练 实例 的 作用 ， 除 非 
这 会 导致 训练 误差 明显 增 大 。 参 数 A 控制 拟 合 程度 和 模型 复杂 度 之 间 的 权衡 。 当 使 用 
和 矩阵 操作 来 求解 模型 系数 时 ， 岭 惩罚 对 于 稳定 的 退化 情况 还 有 额外 的 好 处 。 由 于 这 个 
原因 ， 它 也 会 应 用 于 标准 最 小 平方 线性 回归 中 。 


尽管 核 岭 回 归 与 支持 向 量 机 相 比 有 计算 简便 的 优点 ， 但 它 的 缺点 是 它 的 系数 向 量 不 具 
有 稀 朴 性 ， 也 就 是 说 没有 “支持 向 量 ” 的 概念 。 这 使 得 两 种 方法 的 预测 时 间 相 反 ， 因 为 支 
持 向 量 机 只 需要 将 支持 向 量 的 集合 相 加 ， 而 核 岭 回归 则 需要 面 对 整 个 训练 集 。 

在 典型 的 实例 数 多 于 属性 数 的 情况 下 ， 即 使 使 用 点 积 而 不 使 用 核 函数 ， 核 岭 回 归 的 计算 
成 本 也 比 标准 线性 回归 高 。 这 是 因为 要 得 到 模型 的 系数 向 量 需要 使 用 矩阵 求 逆 操作 。 标 准 的 
线性 回归 需要 求 一 个 m x m 矩阵 的 逆 ， 复 杂 度 为 0(m ) ， 其 中 m 是 数据 中 属性 的 数量 。 核 崔 
回归 则 要 求 n x n 矩阵 的 逆 ， 复杂 度 为 O(n^), ， 其 中 是 训练 数据 中 实例 的 个 数 。 然 而 ， 在 
需要 进行 非 线性 拟 合 或 者 属性 比 训练 实例 多 的 情况 下 ， 使 用 核 岭 回归 还 是 有 优势 的 。 











6.4.5 核 感知 机 


在 4.6 节 中 ， 我们 介绍 了 用 于 学 习 线 性 分 类 器 的 感知 机 算法 。 核 技巧 也 可 以 应 用 于 这 
个 算法 ,使 之 升级 用 以 学 习 得 到 非 线性 决策 边界 。 


为 了 了 解 这 点 ， 我 们 先 来 复习 线性 的 情况 。 感 知 机 算法 让 训练 集 实例 一 个 接 一 个 
进行 重复 迭代 ， 当 其 中 的 一 个 实例 按 目 前 所 学 习 的 权 向 量 进行 分 类 出 现 错误 时 ， 就 要 
更 新 权 向 量 。 更 新 只 是 简单 地 在 权 向 量 上 加 上 或 碱 去 这 个 实例 的 属性 值 。 这 意味 着 最 
终 的 权 向 量 是 被 错误 分 类 的 实例 的 总 和 。 感 知 机 做 预测 是 基于 

Fu 
大 于 0 还 是 小 于 0， 其 中 w 是 第 i 个 属性 的 权 值 ，a; 是 要 进行 分 类 的 实例 所 对 应 的 属 
性 值 。 相 反 ， 也 可 以 用 





2 2 Gs G) a; 
这 里 ,a'(j) 是 第 7 个 被 错误 分 类 的 训练 实例 ，c“ C); 是 它 的 第 i 个 属性 值 ，y(j) BE 
的 类 值 (不 是 +1 就 是 -1)。 在 实现 时 ， 我 们 不 再 需要 清楚 地 记录 权 向 量 ， 只 需要 保 
存 当 前 被 错误 分 类 的 实例 ， 然 后 利用 上 面 的 表达 式 来 预测 。 

看 来 似乎 没有 什么 可 取 之 处 一 一 事实 上 ， 这 个 算法 相当 慢 ， 因 为 每 做 一 次 预测 需 

要 重复 处 理 所 有 的 错误 分 类 实例 。 然 而 ， 再 仔细 地 看 看 这 个 公式 ， 发 现 它 可 以 用 实例 
间 的 标量 积 来 表示 。 首 先 交 换 求 和 符号 ， 得 到 

20 2,0); 
第 二 个 求 和 正 是 两 个 实例 之 间 的 标量 积 ， 可 以 写成 

2 Ga) “a 
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关键 在 此 ! 类 似 于 支持 向 量 机 的 表达 式 使 我 们 能 利用 核 函 数 。 确 实 ， 这 里 我 们 可 以 采 
取 完 全 相同 的 技巧 ， 利 用 核 函 数 来 蔡 换 标量 积 。 将 这 个 函数 表示 为 K(…) ， 得 到 
Y yG) K(a' G) ,a) 


这 样 ， 感 知 机 算法 只 要 简单 地 记录 在 训练 过 程 中 被 错误 分 类 的 训练 实例 ， 用 上 面 的 表 
达 式 来 做 预测 ， 就 能 学 习 得 到 非 线性 分 类 器 。 


如 果 在 由 核 函 数 创建 的 高 维 空间 中 存在 一 个 分 隔 超 平面 ， 那 么 利用 这 个 算法 会 得 到 一 
个 超 平面 。 但 是 ， 所 得 到 的 不 是 支持 向 量 机 分 类 器 所 能 得 到 的 最 大 间隔 超 平面 。 这 意味 着 
它 的 分 类 性 能 通常 比较 差 。 从 好 的 方面 看 ， 这 个 算法 容易 实现 并 且 支 持 增 量 学 习 。 

这 个 分 类 器 称 为 核 感知 机 (kernel perceptron) 。 结 论 是 所 有 学 习 线 性 模型 的 算法 都 可 以 
类 似 地 通过 应 用 核 技巧 进行 升级 。 例 如 ，Logistic 回归 可 以 转变 为 核 Logistic 回归 (kernel Lo- 
gistic regression) 。 正 如 前 面 看 到 的 ， 核 技巧 同样 适用 于 回归 问题 : 线性 回归 也 可 以 利用 核 函 
数 来 升级 。 这 些 高 级 的 线性 回归 和 Logistic 回归 方法 的 缺点 〈 如 果 它 们 采取 直接 应 用 核 技巧 ) 
是 结果 不 是 “稀疏 的 ”: 每 个 训练 实例 对 最 终 的 结果 向 量 都 有 贡献 。 在 支持 向 量 机 和 核 感知 
机 中 ， 只 是 部 分 训练 实例 影响 最 终 的 结果 ， 这 点 在 计算 效率 上 会 造成 很 大 的 差别 。 

感知 机 算法 所 得 到 的 结果 向 量 在 很 大 程度 上 依赖 于 实例 的 顺序 。 一 种 可 以 使 算法 比较 
稳定 的 方法 是 使 用 在 训练 过 程 中 所 经 历 到 的 所 有 权 向 量 , 不 只 是 最 终 的 那个 ， 让 它们 对 预 
测 进行 投票 。 每 个 权 向 量 贡 献 一 定数 目的 票数 。 直 观 地 来 看 ， 一 个 权 向 量 的 “正确 性 ”可 
以 粗略 地 用 它 自 形成 后 对 随后 的 训练 实例 进行 正确 分 类 而 无 需 更 新 的 数目 来 度量 。 可 以 将 
这 个 度量 赋予 这 个 权 向 量 作为 它 要 贡献 的 票数 ， 这 个 算法 就 是 投票 感知 机 (voted percep- 
tron) ， 它 的 性 能 与 支持 向 量 机 相差 无 几 (注意 ， 如 前 所 述 ， 投 票 感知 机 中 的 不 同 权 向 量 
也 不 需要 显示 记录 ， 核 技巧 在 这 里 也 同样 适用 )。 


6. 4.6 多 层 感知 机 


为 建立 一 个 基于 感知 机 的 非 线性 分 类 器 ， 使 用 核 函 数 并 不 是 唯一 的 方法 。 实 际 上 ， 核 函数 
是 近期 才 发 展 起 来 的 机 器 学 习 方法 。 以 前 ， 神 经 网 络 对 于 非 线性 分 类 问题 采用 另 一 种 不 同 的 方 
ik: 它们 将 许多 简单 的 类 似 感知 机 的 模型 按 层次 结构 连接 起 来 。 这 样 就 能 表现 非 线 性 决策 边界 。 

在 4.6 节 中 曾 解释 过 感知 机 代表 一 个 存在 于 实例 空间 的 超 平面 。 我 们 曾 提 到 它 有 时 被 
描述 为 人 工 “ 神 经 元 ”"。 当 然 ， 人 和 动物 的 大 脑 能 成 功 地 完成 非常 复杂 的 分 类 问题 ， 例 如 ， 
图 像 识 别 。 单 靠 大 脑 中 单个 神经 元 的 功能 是 不 足以 完成 这 些 壮举 的 。 类 似 大 脑 的 结构 是 如 
何 解 决 这 类 问题 的 呢 ? 答案 在 于 大 脑 神经 元 是 大 规模 地 相互 连接 的 ， 它 能 将 一 个 问题 分 解 
为 可 以 在 神经 元 这 一 层 来 解决 的 子 问 题 。 这 个 观察 结果 启发 了 人 工 神 经 网 络 的 发 展 。 

考虑 图 6-11 中 简单 的 数据 集 。 图 6-11a 展示 了 一 个 2 维 实例 空间 ， 含 有 4 个 实例 ， 实 
例 的 类 别 为 0 和 1， 分 别 用 白 的 和 黑 的 圆 点 来 表示 。 无 论 你 怎样 在 这 个 空间 上 画 直线 ， 都 
无 法 找到 一 条 直线 能 将 黑白 圆 点 分 隔 开 来 。 换 句 话 说， 这 个 问题 不 是 线性 可 分 的 ， 简 单 的 
感知 机 算法 无 法 生成 分 隔 超 平面 (在 2 维 实例 空间 ， 超 平面 只 是 一 条 直线 ) 。 图 6-11b、e 
的 情形 就 不 同 了 : 这 两 种 情况 都 是 线性 可 分 的 。 图 6-11d 的 情况 也 是 如 此 ， 图 中 展示 了 在 
1 维 实例 空间 中 的 两 个 实例 点 (在 1 维 实例 空间 ， 超 平面 退缩 成 一 个 分 隔 点 ) 。 

如 果 你 熟悉 命题 逻辑 ， 你 也 许 会 注意 到 图 6-11 中 的 4 种 情况 正好 对 应 4 种 逻辑 关系 。 
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图 6-11a 代表 逻辑 异 或 (XOR) ， 当 且 仅 当 有 一 个 属性 值 为 1 时 ， 类 值 为 1。 图 6-11b 代表 
逻辑 与 (AND) ， 当 且 仅 当 两 个 属性 值 都 为 1 时 ， 类 值 为 1。 图 6-11c RREH (OR), 
当 且 仅 当 两 个 属性 值 都 为 0 时 ， 类 值 为 0。 图 6-11d EXE SHE (NOT) ， 当 且 仅 当 属 性 值 
为 1 时 ， 类 值 为 0。 由 于 后 面 三 种 情况 都 是 线性 可 分 的 ， 所 以 感知 机 可 以 代表 逻辑 与 、 逮 
辑 或 及 逻辑 非 。 图 6-11f ~ 图 6-11h 分 别 展 示 了 与 数据 集 相 对 应 的 感知 机 。 可 是 简单 的 感知 
机 不 能 代表 逻辑 异 或 ， 因 为 它 不 是 线性 可 分 的 。 解 决 这 个 问题 的 分 类 器 仅 用 一 个 感知 机 是 
不 够 的 ， 需 要 多 个 感知 机 。 


l4 e Oo 14 0 e l4 e e 
040 e 04 O o 04 0 e 
0 1 0 1 0 1 

a) b) c) 


d) 





图 6-11 数据 集 样 例 及 其 相应 的 感知 机 
图 6-1le 展示 了 一 个 由 三 个 感知 机 ， 或 称 为 单元 (unit) ,标记 为 A、B 和 C， 所 组 成 
的 网 络 。 前 面 两 个 与 网 络 输 入 层 (input layer) 相连 接 ， 输 入 层 代 表 数 据 的 属性 。 就 像 在 
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简单 的 感知 机 中 一 样 ， 输 入 层 还 附加 一 个 称 为 偏差 (bias) 的 常量 输入 。 然 而 ， 第 三 个 单 
元 却 和 输入 层 没 有 任何 连接 。 它 的 输入 是 由 单元 A、B 的 输出 ( 非 0 即 1) 和 另 一 个 常量 
偏差 单元 所 组 成 。 这 三 个 单元 构成 了 多 层 感知 机 的 隐 层 (hidden layer) 。 称 为 “ 隐 层 ”是 
因为 单元 与 外 部 环境 没有 直接 的 连接 。 正 是 这 一 层 让 系统 有 表示 异 或 (XOR) 的 功能 。 可 
以 用 所 有 4 种 可 能 的 输入 信和 号 组 合 来 进行 核实 。 例 如 ， 如 果 属 性 a Al, a, 也 为 1， 那 么 
单元 A 将 输出 1 (因为 1xl1+1xl-0.5xl>0)， 单 元 B 将 输出 0 (AA -1x1+(-1) 
xl1+1.5xl<0)， 单 元 C 将 输出 0 (因为 1xl1+l1x0+(-1.5)xl<0)。 这 是 正确 的 答 
案 。 仔 细 检 查 这 三 个 单元 的 功能 就 会 发 现 ， 第 一 个 代表 或 ， 第 二 个 代表 与 非 (NAND) 
(逻辑 非 和 逻辑 与 组 合 在 一 起 ) ， 第 三 个 是 与 。 组 合 在 一 起 代表 了 (a,ORa;) AND 
(a, NANDa;,), ， 这 正 是 异 或 的 精确 定义 。 

正如 这 个 例子 所 展示 的 ， 命 题 计 算 的 任何 表达 式 都 可 以 转化 为 一 个 多 层 感知 机 ， 因 为 
逻辑 与 、 逻 辑 或 和 逻辑 非 这 三 种 连接 关系 就 已 足够 用 了 ， 并 且 我 们 也 已 经 看 到 了 感知 机 是 
如 何 代 表 每 种 关系 的 。 个 体 单 元 可 以 连接 在 一 起 来 表示 任意 复杂 的 表达 式 。 因 此 多 层 感 知 
机 也 具备 相同 的 表达 能 力 ， 壁 如 说 ， 与 决策 树 相 比 。 实 际 上 ， 一 个 两 层 感知 机 (不 算 输 入 
E) 就 足够 了 。 这 时 ， 隐 层 的 每 个 单元 对 应 不 同 的 逻辑 与 ， 因 为 我 们 假设 它 可 能 在 做 逻辑 
与 之 前 ， 部 分 输入 要 进行 逻辑 非 操 作 。 然 后 在 输出 层 进行 逻辑 或 操作 ， 它 是 由 单个 单元 来 
表示 的 。 换 句 话说 ， 隐 层 的 每 个 单元 所 担当 的 角色 就 如 同 叶 子 结 点 在 决策 树 中 ,或 者 单个 
规则 在 决策 规则 集中 所 担当 的 角色 。 

重要 的 问题 是 怎样 学 习 多 层 感知 机 。 这 个 问题 有 两 个 方面 : 一 方面 是 学 习 网 络 结构 ， 另 
一 方面 是 学 习 连 接 权 值 。 对 于 一 个 给 定 的 网 络 结构 ， 有 一 种 相当 简单 的 算法 可 用 来 决定 权 
值 。 这 个 算法 称 为 反 向 传播 〈backpropagation) 法 ， 将 在 下 一 节 讨 论 。 虽 然 现 有 许多 试图 识 
别 网 络 结构 的 算法 ， 但 这 方面 的 问题 通常 是 通过 实验 来 解决 的 ， 也 许 需 要 结合 一 些 专业 知 
识 。 有 时 可 以 将 网 络 分 隔 成 不 同 的 模块 ， 代 表 不 同 的 子 任务 (例如 ， 在 图 像 识 别 问题 中 ， 辩 
别 一 个 物体 不 同 的 组 成 部 分 ) ， 这 开创 了 一 种 将 领域 知识 与 学 习 过 程 结 合 起 来 的 方法 。 通 常 
一 层 隐 层 就 是 所 需 的 全 部 ， 而 合适 的 隐 层 单元 数目 则 是 通过 最 大 化 估计 准确 率 来 决定 的 。 

反 向 传播 

假设 现 有 一 些 数据 ， 我 们 要 寻找 一 个 多 层 感 知 机 ， 它 是 潜在 分 类 问题 的 准确 预测 器 。 
给 定 固定 的 网 络 结构 ， 必 须 决定 合适 的 网 络 连 接 权 值 。 在 没有 隐 层 的 情况 下 ， 可 以 用 4.6 
节 中 的 感知 机 学 习 规 则 来 找到 合适 的 值 。 但 是 现在 假设 有 隐 层 。 要 是 知道 输出 单元 该 预测 
什么 ， 就 能 根据 感知 机 规则 来 调整 连接 这 个 单元 的 权 值 。 可 是 连接 到 隐 层 单元 的 正确 输出 
结果 是 未 知 的 ， 因 此 感知 机 规则 在 这 里 不 适用 。 

一 般 来 说 ， 解 决 办 法 是 根据 每 个 单元 对 最 终 预测 的 贡献 调整 与 隐 层 单元 连接 的 权 值 。 
有 一 种 称 为 梯度 下 降 法 (gradient descent) 的 标准 数学 优化 算法 能 达到 此 目的 。 不 幸 的 是 ， 
需要 求 导数 ， 而 简单 的 感知 机 使 用 阶 跃 函数 来 将 加 权 的 输入 总 和 转换 为 0/1 预测 ， 而 阶 跃 
函数 是 不 可 微 的 。 因 此 必须 考虑 是 否 能 将 阶 牙 函数 替换 为 其 他 形式 的 函数 。 

图 6-12a 展示 了 阶 牙 函数 : 如 果 输 入 小 于 0， 输 出 为 0， 否 则 输出 为 1。 我 们 需要 找 一 
个 形状 类 似 ， 但 可 微 的 函数 。 通 常 使 用 的 替代 函数 是 图 6- 12b 所 展示 的 函数 。 在 神经 网 络 
术语 中 ， 称 为 sigmoid 函数 并 定义 为 


f(x) = 
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在 4.6 节 讨论 Logistic 回归 中 使 用 对 数 变换 时 ， 我 们 曾 遇 到 过 sigmoid 函数 。 实 际 上 ， 学 习 
一 个 多 层 感知 机 与 Logistic 回归 是 密切 相关 的 。 


1 1 


0.8 0.8 
0.6 0.6 
0.4 0.4 
0.2 0.2 
0 0 
-10 -5 0 5 10 — -10 -5 0 5 10 
a) 阶 跃 函数 b) sigmoid 函 数 


图 6-12 [TERS sigmoid 


为 了 应 用 梯度 下 降 过 程 ， 通 过 调整 权 值 使 误差 函数 达到 最 小 化 ， 因 此 误差 函数 也 必须 
是 可 微 的 。 用 5.6 节 中 介绍 的 离散 的 0 — 1 损失 函数 来 衡量 错误 分 类 数目 ， 也 不 符合 这 个 
标准 。 另 外 ， 在 多 层 感 知 机 训练 时 ， 一 般 是 将 网 络 输出 的 平方 误差 最 小 化 ， 本 质 上 是 把 它 
看 做 是 对 类 概率 的 估计 (其 他 损失 函数 也 可 以 用 。 例 如 ， 如 果 用 负 对 数 似 然 函数 代替 平方 
误差 ， 学 习 sigmoid 的 感知 机 和 Logistic 回归 是 一 样 的 ) 。 

我 们 采用 平方 误差 损失 函数 ， 因 它 的 应 用 最 为 广泛 。 对 单个 训练 实例 来 说 ， 它 是 


E = LG -fG)* 


这 里 , f(x) 是 从 输出 单元 得 到 的 网 络 的 预测 值 ，y 是 实例 的 类 标 (这 里 假设 不 是 1 就 是 
0) 。 系 数 1/2 只 是 为 了 方便 ， 当 开始 计算 导数 时 就 去 掉 。 

梯度 下 降 揭示 了 将 被 最 小 化 的 函数 ， 这 里 是 误差 函数 的 导数 所 提供 的 信息 。 举 个 例 
F, 假设 误差 函数 正好 是 ww +1， 如 20 
图 6-13 所 示 。x 轴 代 表 一 个 要 进行 优化 
的 假设 参数 w, w +1 的 导数 是 2w。 重 “1; 
要 的 是 ， 根 据 导数 可 以 计算 函数 在 任意 
点 的 斜率 。 如 果 导 数 是 负 的 ， 则 函数 向 
右 下 方 倾斜 ; 如 果 是 正 的 ， 则 向 左下 方 
倾斜 。 导 数 的 大 小 决定 了 倾斜 的 陡峭 度 。 
梯度 下 降 法 利用 这 些 信息 来 调整 晴 数 的 ”5 
参数 ， 它 是 一 个 迭代 优化 的 过 程 。 它 将 
导数 值 乘 以 一 个 称 为 学 习 率 (learing o 


rate) 的 小 常量 ， 然 后 将 计算 结果 从 目 4 -2 0 2 4 
前 的 参数 值 中 减 去 。 代 人 新 的 参数 重复 图 6-13 误差 函数 w +1 的 梯度 下 降 


这 个 过 程 ， 以 此 类 推 ， 直 到 达到 最 小 值 。 

回 到 上 述 例子 中 ， 假 设 学 习 率 设 定 为 0.1， 目 前 的 参数 值 v 为 4。 导数 是 它 的 两 倍 ， 
就 是 8。 乘 以 学 习 率 得 到 0.8， 再 将 其 从 4 中 减 去 ， 得 到 3.2， 这 就 是 新 的 参数 值 。 用 3. 2 
作为 参数 值 再 重复 这 个 过 程 ， 得 到 2. 56 ， 然 后 又 得 到 2. 048 ， 等 等 。 图 6-13 中 的 小 又 显示 
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的 就 是 在 这 个 过 程 中 所 产生 的 数值 。 一 旦 参数 值 变化 变 得 非常 小 ， 就 停止 这 个 过 程 。 在 此 
例子 中 ， 这 个 情况 发 生 在 当 参 数值 逼近 于 0 时 ， 这 个 值 对 应 于 x 轴 上 的 位 置 正 是 假设 误差 
函数 达到 最 小 值 的 位 置 。 

学 习 率 决定 了 改变 的 大 小 ， 因 此 决定 了 多 快 能 使 搜索 达到 收敛 。 如 果 这 个 值 太 大 ， 误 
差 函 数 又 有 几 个 极 小 值 ， 搜 索 也 许 会 越过 目标 ， 错 过 极 小 值 ， 或 者 出 现 大 幅 振 功 。 如 果 太 
小 ， 靠 近 极 小 值 的 进程 可 能 会 很 慢 。 注 意 ， 梯 度 下 降 法 只 能 找到 局 部 极 小 值 。 如 果 函 数 有 
多 个 极 小 值 ， 那 么 多 层 感 知 机 的 误差 函数 通常 有 多 个 极 小 值 ， 找 到 的 也 许 不 是 最 好 的 。 这 
是 标准 多 层 感 知 机 与 其 他 方法 ( 如 支持 向 量 机 ) 相 比 的 一 个 最 明显 的 缺陷 。 


为 了 利用 梯度 下 降 法 来 寻找 多 层 感 知 机 的 权 值 ， 平 方 误差 的 导数 必须 根据 每 个 参 
数 来 决定 ， 即 在 网 络 中 的 每 个 权 值 来 决定 。 先 来 看 看 不 带 隐 层 的 简单 感知 机 。 根 据 革 
个 具体 的 权 值 w,， 对 上 述 误差 函数 求 导 ， 得 到 

acc (fa = 
Ek f(x) 是 感知 机 的 输出 ，x 是 加 权 的 输入 总 和 。 

要 计算 等 式 右边 第 二 个 因子 ， 需 要 对 sigmoid 函数 求 导 。 得 到 的 是 可 以 用 函数 的 x) 

自身 来 表示 的 特别 简单 的 形式 ; 


VO = f) (1 -As)) 
HS) 表示 这 个 导数 。 可 我 们 是 要 对 w 求 导 而 不 是 对 * 求 导 。 因 为 
% = Y vaa, 





所 以 所 zx) 对 w 求 导 得 到 
da) -= = f'(x)a, 


RR Oe ea 
= (f(x) =- y)f'(x)a; 


这 个 表达 式 给 出 了 改变 权 值 w 计算 所 需 的 全 部 ， 这 个 改变 是 由 于 某 个 具体 的 实例 
向 量 a (如 前 所 述 ， 再 附加 一 个 偏差 1) 所 引起 的 。 对 每 个 训练 实例 重复 进行 这 样 的 计 
算 ， 然 后 把 改变 值 按 具体 的 w; 分 别 相 加 ， 乘 以 学 习 率 ， 再 从 当前 的 w; 值 中 减 去 计 
算 结果 。 

到 现在 为 止 都 还 不 错 。 但 是 所 有 这 些 都 是 在 假设 没有 隐 层 的 前 提 下 。 带 有 隐 层 就 
稍 许 难处 理 一 些 。 假 设 九 *) 是 第 i 个 隐 层 单元 的 输出 ，wj 是 从 输入 j 到 第 i 个 隐 层 单 
元 连接 的 权 值 ，w; 是 第 i 个 隐 层 单元 和 输出 单元 之 间 的 权 值 。 图 6-14 描绘 了 这 个 情形 。 
和 前 面 一 样 , f(x) 是 输出 层 的 单个 输出 单元 。 权 值 w; 的 更 新 规则 和 上 述 方法 基本 相 
同 ， 除 了 用 第 i 个 隐 单 元 的 输出 替换 了 a; 外 : 


Me = UG) -S Ce) fl) 
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然而 ， 为 了 更 新 权 值 wy ， 需 要 进行 相应 的 求 导 计算 。 应 用 链 式 规则 得 出 


E EE = (f(x) -yf & 





dw; ^ dx dw; 
前 两 个 因子 与 先前 的 公式 是 一 样 的 。 要 计算 第 三 个 因子 ,需要 进一步 求 导 。 因 为 
x= Y wf) 
那么 
dx df(x,) 
dw,  ' dw, 
ma, 
x. = 2, wa; 
因此 
df(x;) ; dx, _,, 
"de, T au nf emat 


这 意味 着 问题 解决 了 。 将 所 有 这 些 归纳 在 一 起 ， 得 到 误差 函数 对 权 值 w 求 导 的 
AR: 
AE = (fa) -y)f'(a)wf G6; 
同 前 面 一 样 ， 对 每 个 训练 实例 进行 这 样 的 计算 ， 然 后 把 改变 值 按 具体 的 ww 分 别 相 
加 ， 乘 以 学 习 率 ， 再 从 目前 ww 值 中 减 去 计算 结果 。 
这 个 求 导 方法 是 应 用 于 含 一 层 隐 层 的 感知 机 。 如 果 存在 两 层 隐 层 ， 可 以 再 次 应 用 相 
同 的 策略 来 更 新 第 一 层 隐 层 的 输入 连接 权 值 ， 错 误 从 输出 单元 通过 第 二 层 隐 层 传播 到 第 


一 层 。 由 于 这 样 一 种 错误 传播 机 制 ， 所 以 这 种 普通 的 梯度 下 降 策略 称 为 反 向 传播 法 。 








图 6-14 带 一 层 隐 层 的 多 层 感知 机 
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我 们 默认 假设 网 络 输出 层 只 有 一 个 单元 ， 这 适合 于 二 类 问题 。 对 含有 两 个 以 上 类 的 情 
况 ， 可 以 将 每 个 类 和 其 他 的 类 区 分 开 来 进行 一 个 个 单独 的 网 络 学 习 。 也 可 以 通过 为 每 个 类 
各 建立 一 个 输出 单元 ， 将 隐 层 的 每 个 单元 和 每 个 输出 单元 相连 接 ， 从 而 能 在 单个 网 络 上 获 
得 一 个 更 为 紧凑 的 分 类 器 。 某 个 具体 训练 实例 的 平方 误差 是 所 有 输出 单元 的 平方 误差 的 总 
和 。 相 同 的 技术 亦 可 应 用 于 同时 预测 多 个 目标 或 者 多 个 属性 值 ， 它 是 通过 为 每 个 (目标 或 
BHEE) 各 建立 一 个 输出 单元 来 实现 的 。 从 直觉 上 看 ， 如 果 潜 在 的 各 项 学 习 任 务 之 间 存 在 
联系 ， 那 么 这 种 方法 可 能 比 给 每 个 类 各 建立 一 个 分 类 器 的 预测 准确 率 高 。 

我 们 已 经 假设 权 值 只 是 在 所 有 训练 实例 都 传送 到 网 络 后 才 进 行 更 新 ， 所 有 相应 的 权 值 
改变 是 累积 起 来 的 。 这 是 批量 学 习 (batch learning) ， 因 为 所 有 的 训练 数据 是 在 一 起 处 理 
的 。 但 是 也 可 以 用 完全 相同 的 公式 ， 在 对 每 一 个 训练 实例 进行 处 理 后 立即 更 新 权 值 。 由 于 
每 次 更 新 后 ， 总 体 误差 率 不 一 定 下 降 ， 所 以 这 叫做 随机 反 向 传播 (stochastic backpropaga- 
tion) 。 它 可 用 于 在 线 学 习 ， 这 种 情形 下 新 数据 以 连续 的 数据 流 形式 传送 进来 ， 对 每 个 训练 
实例 只 处 理 一 次 。 在 这 两 种 反 向 传播 方法 中 ， 先 将 属性 标准 化 使 之 平均 值 为 0、 标 准 差 为 
1， 通 常 是 很 有 帮助 的 。 在 开始 学 习 前 ， 将 每 个 权 值 初始 化 为 基于 平均 值 为 0 的 正 态 分 布 
的 、 一 个 很 小 的 随机 值 。 

与 其 他 学 习 方 案 一 样 ， 用 反 向 传播 法 训练 的 多 层 感知 机 可 能 会 过 度 拟 合 ， 特 别 是 当 网 
络 规模 远大 于 表达 潜在 学 习 问 题 结 构 的 需要 时 。 人 们 提出 许多 修改 方案 来 避免 这 个 问题 。 
一 个 非常 简单 的 方法 称 为 提前 停止 (early stopping) ， 与 规则 学 习 器 中 的 减少 - 误差 剪 枝 算 
法 一 样 : 用 一 个 旁 置 数 据 集 来 决定 何 时 停止 反 向 传播 算法 的 迭代 过 程 。 测 量 旁 置 数据 集 上 
的 错误 ,一 旦 错误 开始 增加 就 停止 ， 因 为 这 表明 与 训练 实例 过 度 拟 合 了 。 另 一 种 方法 称 为 
权 值 衰减 (weight decay) ， 即 在 误差 函数 上 加 一 个 惩罚 项 ， 它 由 网 络 中 所 有 权 值 总 和 的 平 
方 组 成 。 它 试图 通过 惩罚 那些 权 值 较 大 却 不 能 相应 地 为 降低 误差 做 贡献 的 权 值 来 限制 网 络 
预测 中 无 关连 接 的 影响 。 

虽然 标准 梯度 下 降 法 是 用 于 学 习 多 层 感 知 机 权 值 的 最 简单 技术 ， 但 这 并 不 意味 着 它 是 
最 快速 的 方法 。 实 际 上 ， 这 个 方法 相当 慢 。 一 个 经 常 能 带 来 性 能 改善 的 诀窍 是 在 更 新 权 值 
时 包含 一 个 动量 (momentum) 项 : 在 新 更 改 的 权 值 上 再 加 上 前 次 迭代 更 新 量 的 一 小 部 分 
数值 。 这 使 方向 改变 上 不 那么 突然 ,平滑 了 搜寻 过 程 。 更 复杂 的 方法 是 利用 误差 函数 的 二 
次 求 导 人 信息， 这样 能 更 快 地 达到 收敛 。 然 而 ， 与 其 他 的 分 类 器 学 习 方 案 相 比较 ， 即 使 采用 
这 样 的 算法 还 是 很 慢 。 

带 有 隐 层 的 多 层 感 知 机 的 一 个 严重 缺陷 是 十 分 难于 理解 。 有 几 种 技术 试图 从 训练 好 的 
神经 网 络 中 提取 规则 。 但 是 ， 并 不 很 清楚 这 与 从 数据 中 直接 导出 规则 集 的 标准 规则 学 习 器 
相 比 是 否 有 优势 ， 特 别 是 首先 考虑 标准 规则 学 习 法 一 般 比 学 习 一 个 多 层 感 知 机 要 快 很 多 。 

虽然 多 层 感 知 机 是 神经 网 络 中 最 著名 的 ， 但 还 有 很 多 类 型 的 神经 网 络 。 多 层 感 知 机 是 
属于 一 种 称 为 前 馈 网 络 (feed-forward networks) 的 网 络 类 型 ， 因 为 它们 不 包含 任何 环 ， 网 
络 的 输出 仅仅 依赖 于 当前 的 输入 实例 。 回 复式 (recurrent) 神经 网 络 包含 环 。 将 先前 输入 
得 到 的 计算 结果 反馈 到 网 络 中 ， 使 网 络 具 有 类 似 记 忆 的 能 力 。 





6.4.7 径 向 基 范 数 网 络 


另 一 种 常用 的 前 馈 网 络 是 径 向 基 子 数 (RBF) 网 络 。 不 算 输入 层 ， 它 共有 两 层 ， 与 多 层 
感知 机 的 不 同 之 处 在 于 它 的 隐 层 单元 会 进行 计算 。 本 质 上 ， 每 个 隐 层 单元 代表 输入 空间 中 的 
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某 个 特定 的 点 ， 而 对 于 一 个 给 定 实例 ， 隐 单元 的 输出 或 称 为 激活 (activation)， 是 由 它 的 点 
和 这 个 实例 ， 即 另外 一 个 点 之 间 的 距离 决定 的 。 从 直觉 上 看 ， 这 两 点 越 接近 ， 激 活 就 越 强 。 
这 是 通过 非 线性 转换 函数 将 距离 转换 为 相似 度 来 实现 的 。 钟 形 的 高 斯 激活 函数 (activation 
function) 就 是 为 实现 这 个 目的 的 一 种 常用 函数 ， 它 的 每 个 隐 层 单元 的 高 斯 激活 函数 的 宽度 可 
能 是 不 同 的 。 隐 层 单 元 称 为 径 向 基 函 数 ， 因 为 在 实例 空间 中 的 各 点 通过 一 个 给 定 的 隐 层 单元 
对 其 产生 相同 的 激活 ， 形 成 一 个 超 球 面 或 超 椭圆 体 〈 在 多 层 感知 机 中 ， 就 是 超 平面 ) 。 

RBF 网 络 的 输出 层 和 多 层 感知 机 的 输出 层 是 相同 的 : 在 分 类 问题 中 ， 它 是 隐 层 输出 的 
线性 组 合 ， 并 且 使 用 sigmoid 函数 (或 者 其 他 类 似 形状 的 函数 ) 进行 传递 。 

这 种 网 络 要 学 习 的 参数 是 : (a) 径 向 基 函 数 的 中 心 和 宽度 ; (b) 用 于 形成 隐 层 输出 
的 线性 组 合 的 权 。RBF 网 络 明显 优 于 多 层 感 知 机 的 一 点 是 ， 第 一 组 参数 的 确定 可 以 独立 于 
第 二 组 参数 而 仍然 能 产生 精确 的 分 类 器 。 

决定 第 一 组 参数 的 一 种 方法 是 使 用 聚 类 。 可 以 应 用 4. 8 节 中 介绍 的 简单 的 均值 聚 类 
算法 ， 独 立地 对 每 个 类 进行 聚 类 得 到 个 基 函 数 。 从 直觉 上 说 ， 所 得 到 的 径 向 基 范 数 代表 
了 实例 原型 。 然 后 可 以 学 习 第 二 组 参数 ， 第 一 组 参数 保持 固定 不 变 。 这 涉及 使 用 我 们 讨论 
过 的 技术 (例如 ， 线 性 或 Logistic 回归 ) 学 习 一 个 线性 模型 。 倘 若 隐 层 单元 数目 比 训练 实 
例 数目 小 很 多 ， 学 习 很 快 就 完成 了 。 

RBF 网 络 的 缺点 是 ， 由 于 在 距离 计算 中 所 有 属性 采用 相同 的 处 理 ， 所 以 赋予 每 个 属性 
相同 的 权 值 ， 除 非 属性 权 值 参数 包含 在 全 局 优化 过 程 中 。 因 此 和 多 层 感知 机 相 比 ， 它 不 能 
有 效 地 处 理 无 关 的 属性 。 支 持 向 量 机 也 存在 同样 的 问题 。 实 际 上 ， 用 高 斯 核 函数 的 支持 向 
量 机 〈 即 “RBF” 核 函数 ) 是 RBF 网 络 的 一 种 特例 ， 即 基 吨 数 是 以 每 个 训练 实例 为 中 心 ， 
输出 是 通过 计算 最 大 间隔 超 平 面 来 得 到 线性 组 合 。 它 的 效果 是 只 有 部 分 径 向 基 范 数 有 非 零 
的 权 值 ， 即 那些 代表 支持 向 量 的 径 向 基 峭 数 。 


6.4.8 随机 梯度 下 降 


我 们 已 经 介绍 了 梯度 下 降 和 随机 反 向 传播 作为 神经 网 络 权 值 学 习 的 优化 方法 。 梯 度 下 降 
实际 上 是 一 种 通用 的 优化 技术 ， 可 以 应 用 到 任何 目标 函数 可 微 的 情况 中 。 实 际 上 ， 通 过 使 用 
一 种 叫 次 梯度 (subgradient) 的 策略 ， 它 还 可 以 应 用 到 目标 函数 不 是 完全 可 微 的 情况 中 。 

一 种 应 用 是 使 用 梯度 下 降 学 习 线性 模型 ， 如 线性 支持 向 量 机 或 Logistic 回归 等 。 使 用 梯 
度 下 降 学 习 这 些 模 型 比 优化 非 线 性 神经 
网 络 容易 ， 因 为 这 些 模型 的 目标 函数 有 
一 个 全 局 的 最 小 值 ， 而 不 是 像 非 线性 神 
经 网 络 那样 有 多 个 局 部 极 小 值 。 对 于 线 
性 问题 ， 随 机 梯度 下 降 过 程 可 以 设计 得 
计算 简单 、 收 敛 很 快 ， 允 许 支持 向 量 机 
和 Logistic 回归 等 模型 能 够 从 大 数据 集 
中 学 习 。 此 外 ， 随 机 梯度 下 降 允 许 模 型 
以 在 线 的 方式 增 量 学 习 。 

对 于 支持 向 量 机 来 说 ， 最 小 化 的 
损失 函数 叫做 合 页 损失 (hinge loss) 
函数 。 如 图 6-15 所 示 ， 它 是 由 一 段 向 图 6-15 合 页 损失 函数 、 二 次 损失 函数 和 0 -1 损失 函数 
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下 倾斜 的 线性 部 分 和 z=1 处 的 水 平 部 分 组 成 的 ， 因 此 而 得 名 。 形 式 化 表示 为 E(z) = max 
10, 1--z|。 为 了 比较 ,该 图 还 同时 显示 了 不 连续 的 0 -1 损失 函数 ， 以 及 连续 可 微 的 二 次 
损失 函数 。 这 些 函 数 被 绘制 成 边缘 函数 =a), EPRA y 为 -1 或 +1,， f(x) 是 线性 
模型 的 输出 。 当 z < 0 时 ， 分 类 错误 ， 因 此 所 有 的 损失 函数 在 负数 区 域内 所 受 惩罚 最 大 。 
在 线性 可 分 的 情况 下 ， 对 于 成 功 分 开 数 据 的 函数 ， 合 页 损失 为 0。 最 大 间隔 超 平面 是 由 合 
页 损失 为 0 的 最 小 权 向 量 确定 的 。 


与 0-1 损失 函数 不 同 ， 合 页 损失 函数 是 连续 的 ， 但 是 在 z= 1 处 不 可 微 ， 而 二 次 损 
失 函 数 处 处 都 可 微 。 如 果 在 处 理 一 个 训练 实例 后 使 用 梯度 下 降 法 更 新 模型 的 权 值 ， 由 
于 需要 求 损失 函 数 的 导数 ， 所 以 不 可 微 会 带 来 问题 。 这 时 就 要 引入 次 梯度 的 概念 。 基 
本 的 思想 是 ， 尽 管 无 法 计算 梯度 ,但 是 如 果 可 以 用 一 个 与 梯度 类 似 的 东西 代替 ， 同 样 
可 以 找到 最 小 值 。 在 合 页 损失 函数 的 情况 下 ， 将 不 可 微 点 处 的 梯度 设置 为 0。 实 际 上 ， 
对 于 zz0 合 页 损失 为 0， 那 么 我 们 就 可 以 只 关注 可 微 的 部 分 (z<0) ， 并 正常 处 理 。 

要 找到 最 小 的 权 向 量 必须 忽略 权 值 衰减 ， 对 于 使 用 合 页 损失 函数 的 支持 向 量 机 ， 
更 新 的 权 值 是 Aw; = ma;y， 其 中 mo 是 学 习 率 。 对 于 随机 梯度 下 降 ， 对 每 个 实例 计算 z 只 
需 计 算 权 向 量 和 实例 之 间 的 点 积 ， 结 果 乘 以 实例 的 类 值 ， 检 查 结果 是 否 小 于 1。 如 果 结 
果 小 于 1， 则 更 新 相应 的 权 值 。 与 感知 机 一 样 ， 也 可 以 将 权 向 量 扩展 增加 一 个 元 素 并 为 
每 个 训练 实例 包含 一 个 额外 的 值 总 是 为 1 的 属性 ， 以 此 来 引入 一 个 偏差 项 。 














6.4.9 讨论 


支持 向 量 机 源 自 统计 学 习 理 论 的 研究 (Vapnik, 1999), ， 对 它 的 探索 始 于 Burges 
(1998) 提供 的 指南 。Cortes 和 Vapnik (1995) 发 表 了 一 篇 概括 性 的 描述 ， 包 括 将 其 推广 
到 数据 处 于 不 可 线性 分 隔 的 情形 。 本 书 介 绍 了 标准 的 支持 向 量 回 归 。Schalkopf 等 (1999) 
提出 了 一 个 不 同 的 版 本 ， 用 一 个 参数 来 代替 两 个 参数 。Smola 和 Schélkopf (2004) 提供 了 
一 个 支持 向 量 回 归 的 深入 指南 。 

上 岭 回归 是 Hoerl 和 Kennard (1970) 提出 的 ， 现 在 可 以 在 标准 的 统计 学 教材 中 找到 它 
们 。Hastie 等 (2009) 给 出 了 关于 核 岭 回 归 的 详细 描述 。 核 岭 回 归 与 高 斯 过 程 回归 在 点 估 
计 方 面 是 等 价 的 ， 高 斯 过 程 的 讨论 超出 了 本 书 的 范围 。 最 有 效 的 通用 和 矩阵 求 逆 算 法 的 时 间 
复杂 度 实际 上 是 O(n^ 7). 而 不 是 O(n”) « 

Freund 和 Schapire (1999) 提出 了 (投票 ) 核 感知 机 。Cristianini 和 Shawe- Taylor 
(2000) 对 支持 向 量 机 和 其 他 一 些 基于 核 函 数 的 方法 ， 包 括 支 持 向 量 学 习 算 法 中 的 优化 理 
论 都 做 了 很 好 的 介绍 。 我 们 只 是 略 读 了 这 些 机 器 学 习 方 法 的 表层 ， 主 要 是 因为 它们 隐 含 了 
高 深 的 数学 。 利 用 核 函 数 来 解决 非 线性 问题 的 思路 被 应 用 在 许多 算法 中 ， 例 如 主 成 分 分 析 
(将 在 7.3 节 中 讨论 ) 。 核 函数 从 本 质 上 来 看 是 一 个 带 有 某 种 数学 特性 的 相似 函数 ， 任 何 一 
种 结构 都 可 以 用 核 函 数 来 定义 ， 如 集合 、 字 符 串 、 树 以 及 概率 分 布 。Shawe-Taylor 和 Cris- 
tianini (2004) 以 及 Schölkopf 和 Smola (2002) 对 基于 核 函数 的 学 习 做 了 详尽 的 介绍 。 

有 关 神 经 网 络 的 文献 很 多 ，Bishop (1995) 为 多 层 感知 机 和 RBF 网 络 都 提供 了 非常 好 
的 介绍 。 自 从 支持 向 量 机 的 出 现 ， 人 们 对 神经 网 络 的 兴趣 似乎 减少 了 ， 或 许 是 因为 支持 向 
量 机 需要 调整 的 参数 较 少 ， 而 能 达到 相同 (其 至 更 高 ) 的 准确 率 。 但 是 多 层 感知 机 有 它 的 
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优势 ， 它 们 能 学 习 忽略 无 关 属 性 ， 利 用 上 大 均值 训练 的 RBF 网 络 可 以 看 做 是 寻找 非 线 性 分 类 
器 的 一 种 快速 粗糙 的 方法 。 最 近 的 研究 表明 ， 在 许多 实际 的 数据 集 上 ， 多 层 感 知 机 能 达到 
与 更 现代 的 机 器 学 习 方法 相 媲 美的 性 能 。 

近年 来 ， 对 梯度 方法 学 习 分 类 器 的 兴趣 又 有 所 恢复 。 尤 其 是 ， 由 于 随机 梯度 方法 可 以 
用 于 大 规模 数据 集 和 在 线 学 习 的 场景 ， 所 以 被 经 常 研 究 。Kivinen 等 (2002 ) Zhang 
(2004) 和 Shalev- Shwartz 等 (2007) 研究 将 这 些 方法 应 用 于 支持 向 量 机 。Kivinen 等 和 
Shalev- Shwartz 等 提出 了 基于 当前 迭代 的 梯度 下 降 的 设置 学 习 率 的 方法 ， 该 方法 只 需要 用 
户 提供 一 个 参数 〈 叫 做 正规 化 参数 ) 用 于 确定 对 训练 数据 的 拟 合 程度 。 一 般 的 正规 化 方式 
是 通过 限制 能 够 更 新 数目 来 完成 的 。 


6.5 基于 实例 的 学 习 


在 4.7 节 中 已 经 看 到 最 近邻 规则 是 怎样 应 用 于 实现 基本 的 基于 实例 学 习 的 。 这 个 简单 
的 方案 存在 一 些 实际 问 题 。 第 一 ， 对 于 较 大 规模 的 训练 数据 集 ， 它 的 速度 往往 很 慢 ， 因 为 
对 每 个 测试 实例 来 说 ， 整 个 训练 集 都 要 被 搜寻 一 遍 一 一 除非 使 用 像 KD 树 或 球 树 ( ball 
tree) 那样 更 复杂 的 数据 结构 。 第 二 ， 对 于 噪声 数据 ， 性 能 较 差 ， 因 为 测试 实例 的 类 是 由 
单个 最 近邻 的 实例 决定 的 ， 所 以 没有 使 用 任何 “ 取 平 均值 ”来 帮助 消除 噪声 。 第 三 ， 当 不 
同 的 属性 对 分 类 结果 存在 不 同 程度 的 影响 时 ， 极 端的 情形 是 当 某 些 属 性 对 分 类 完全 无 关 
时 ， 人 性 能 较 差 ， 这 是 因为 在 距离 公式 中 所 有 属性 的 贡献 是 均等 的 。 第 四 ， 它 不 能 实现 显 式 
的 泛 化， 尽管 在 3. 5 节 中 提 到 (并 在 图 3-10 中 描述 ) 某 些 基于 实例 的 学 习 系统 确实 能 实 
现 显 式 的 泛 化 。 


6.5.1 减少 样本 集 的 数量 


普通 的 最 近邻 规则 存储 了 许多 元 余 样 本 。 几 乎 完全 没有 必要 保存 所 有 目前 所 见 过 的 实 
例 。 一 个 简单 的 变 体 就 是 用 所 见 的 实例 对 每 个 实例 进行 分 类 ， 只 保存 被 错误 分 类 的 实例 。 
这 里 用 了 一 个 术语 样本 集 (exemplars) 特 指 先前 已 见 过 的 、 用 于 分 类 的 实例 集 。 丢 弃 被 正 
确 分 类 的 实例 以 减少 样本 的 数量 ， 这 被 证 明 是 剪 枝 样 本 数据 库 的 一 个 有 效 方法 。 理 想 状 况 
是 只 为 实例 空间 上 的 每 个 重要 区 域 存储 单个 样本 。 但 是 在 学 习 过 程 早 期 被 丢弃 的 实例 ， 也 
许 在 后 期 看 来 是 重要 的 实例 ， 这 可 能 导致 预测 准确 率 的 降低 。 随 着 存储 实例 数目 的 增加 ， 
模型 的 准确 率 也 随 之 得 以 改善 ， 因 此 系统 错误 随 之 减少 。 

不 幸 的 是 ， 只 存储 被 错误 分 类 的 实例 在 碰 到 噪声 数据 时 不 能 正常 工作 。 噪 声 实例 很 可 
能 被 错误 分 类 ， 因 此 导致 所 存储 的 样本 集 是 在 累积 那些 最 无 用 的 实例 。 这 个 结论 很 容易 通 
过 实验 观察 到 。 因 此 ， 这 个 策略 只 是 在 探寻 有 效 的 基于 实例 学 习 方 法 道路 上 的 一 块 踏 
脚 石 。 


6.5.2 ”对 噪声 样本 集 剪 枝 


对 任何 不 抑制 噪声 样本 集 的 最 近邻 方案 来 说 ， 噪 声 样本 集 不 可 避免 地 会 降低 性 能 ， 因 
为 它们 会 重复 地 造成 对 新 实例 的 错误 分 类 。 有 两 种 方法 可 以 解决 这 个 问题 : 一 种 是 局 部 
的 ， 预 先 确 定 一 个 常数 上 ， 然 后 查找 上 个 最 近邻 的 实例 来 代替 查找 单个 最 近邻 实例 ， 并 将 
多 数 类 赋予 未 知 实例 。 问 题 是 怎样 给 定 合适 的 常数 上。 简单 最 近邻 学 习 对 应 的 大 值 等 于 1。 
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RERE, k 值 就 应 越 大 。 第 一 种 方法 是 设 定 几 种 不 同 的 大 值 进行 交叉 验证 ， 然 后 选择 其 
中 最 好 的 。 虽 然 这 样 计算 时 间 耗 费 很 多 ， 但 通常 能 达到 非常 好 的 预测 性 能 。 

第 二 种 方法 是 监测 每 个 存储 样本 的 性 能 ,丢弃 性 能 不 好 的 。 这 可 以 通过 记录 每 个 样本 
所 做 出 的 正确 和 错误 的 分 类 决策 数目 来 完成 。 在 正确 率 上 要 预 设 两 个 阐 值 。 当 某 个 样本 的 
性 能 低 于 阐 值 下 限时 ， 它 将 从 样本 集中 删除 。 如 果 性 能 超过 阐 值 上 限 ， 它 将 用 于 测试 新 的 
实例 。 如 果 性 能 介 于 两 者 之 间 ， 它 将 不 参与 预测 ,但 只 要 它 是 新 实例 最 靠近 的 样本 (假如 
它 的 性 能 记录 足够 好 ， 它 就 会 参与 预测 ) ， 它 的 成 功 统计 就 要 被 更 新 ， 就 好 像 它 参与 了 预 
测 那个 新 的 实例 。 

为 了 完成 这 个 任务 ， 要 利用 5. 2 节 中 推导 的 伯 努 利 过 程 成 功 概率 的 置信 边界 。 回 想 一 
下 ， 我 们 将 NN 次 实验 中 含有 5 次 成 功 作 为 潜在 真实 正确 率 p 的 置信 边界 的 依据 。 给 定 某 一 
置信 和 度 ， 比 如 说 5% ， 可 以 计算 上 界 、 下 界 ， 并 有 9590 的 把 握 将 p VEA ER. PAREM. 

为 了 把 这 点 运用 于 决定 何 时 接受 某 个 样本 ， 先 假设 某 个 样本 已 参与 n 次 对 其 他 实例 的 
BE, FP s 次 是 正确 的 。 这 使 我 们 能 估计 出 在 某 一 置信 和 度 下 ， 这 个 样本 真实 正确 率 的 边 
界 。 现 在 假设 这 个 样本 的 类 在 N 个 训练 实例 中 出 现 。 次。 这 使 我 们 能 估计 出 默认 正确 率 的 
边界 ， 这 里 默认 正确 率 是 指 对 这 个 类 的 实例 分 类 的 成 功 概率 ， 而 不 考虑 其 他 实例 的 任何 信 
息 。 我 们 主张 真实 正确 率 的 置信 边界 下 界 要 高 于 默认 正确 率 置信 边界 的 上 界 。 用 同样 的 方 
法 来 设计 丢弃 性 能 差 的 样本 的 准则 ,丢弃 的 条 件 是 真实 正确 率 的 置信 边界 上 界 低 于 默认 正 
确 率 置信 边界 的 下 界 。 

选择 适当 的 阅 值 ， 这 个 方案 工作 得 很 好 。 在 IBS 即 “ 基 于 实例 的 学 习 器 版 本 3” 的 实 
现 中 ， 决 定 接受 的 置信 和 度 设 为 5% ， 决 定 丢 弃 的 置信 和 度 设 为 12. 5% 。 较 低 的 百分率 将 产生 
较 宽 的 置信 区 间 ， 是 为 更 严格 的 准则 设计 的 ， 因 为 这 使 一 个 区 间 的 下 限 要 位 于 另 一 个 区 间 
的 上 限 之 上 更 加 困难 。 决 定 接受 的 准则 比 决定 丢弃 的 准则 更 严格 ,使 一 个 实例 被 接受 更 为 
困难 。 丢 痉 准 则 不 那么 严格 的 原因 在 于 丢弃 分 类 准确 率 中 等 偏差 的 实例 几乎 不 会 有 什么 损 
R: 很 有 可 能 以 后 会 有 类 似 的 实例 来 取代 它 。 运 用 这 些 阐 值 能 使 基于 实例 的 学 习 方 案 的 性 
能 得 到 提高 ， 同 时 大 幅 减少 了 存储 的 样本 数目 ， 特 别 是 噪声 样本 。 





6.5.3 属性 加 权 


经 过 修改 的 欧 几 里 得 距离 函数 使 所 有 的 属性 值 按 比例 转换 为 0~1 之 间 的 数值 ， 这 在 各 
个 属性 与 结果 的 相关 性 等 同 的 情况 下 能 较 好 地 工作 。 然 而 ， 这 种 情况 只 是 一 种 例外 而 非常 
规 。 在 多 数 情况 下 ， 部 分 属性 与 结果 无 关 ， 并 在 相关 属性 中 部 分 属性 不 如 其 他 属性 重要 。 基 
于 实例 学 习 的 下 一 步 改进 就 是 通过 动态 更 新 属性 权 值 来 增 量 学 习 每 个 属性 的 相关 性 。 

在 一 些 方案 中 ， 权 值 是 与 具体 类 别 相关 的 ， 即 一 个 属性 可 能 对 某 种 类 比 对 其 他 类 更 为 
重要 。 为 了 配合 这 一 点 ， 对 每 个 类 进行 描述 ， 使 每 个 类 的 成 员 与 属于 其 他 类 的 成 员 区 分 开 
来 。 这 就 带 来 了 一 个 问题 ， 即 一 个 未 知 的 测试 实例 可 能 会 被 赋予 多 个 不 同 的 类 ， 或 者 一 个 
类 也 没有 ， 这 是 一 个 我 们 在 讨论 规则 归纳 中 很 熟悉 的 问题 。 可 用 启发 式 解决 方案 来 解决 这 
些 问题 。 

距离 度量 在 各 个 维 上 将 各 自 属性 权 值 w, ，w, ，…，w, 合并 在 一 起 考虑 : 

Vwi (a, = yi)! + wy (a, = ya)? nn + Wn Gn = yu). 


当 特 征 权 值 与 类 别 相关 时 ， 每 个 类 各 自 拥 有 一 组 权 值 。 
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对 每 个 训练 实例 进行 分 类 之 后 ， 所 有 的 属性 权 值 都 要 被 更 新 ， 更 新 是 基于 最 类 似 的 样 
本 (或 每 个 类 最 类 似 的 样本 ) 。 训 练 实例 *， 最 类 似 样 本 y， 对 于 每 个 属性 i， 差 值 | x, - 
y, | 是 这 个 属性 对 分 类 决策 所 做 贡献 的 一 种 度量 。 如 果 差 值 很 小 ， 这 个 属性 的 贡献 是 正 向 
的 ; 而 差异 很 大 时 ， 贡 献 则 是 负 向 的 。 基 本 的 思想 是 依据 这 个 差 值 的 大 小 以 及 分 类 是 否 正 
确 来 更 新 第 i 个 属性 的 权 值 。 如 果 分 类 正确 ， 相 关 的 权 值 增加 ; 如 果 分 类 错误 ， 则 减 小 。 
增加 或 减少 的 幅度 由 差 值 大 小 来 控制 ， 如 果 差 异 小 ， 幅 度 就 大 ， 反 之 亦 然 。 跟 随 权 值 改变 
之 后 的 通常 是 重 归 范 化 步 又。 一 个 可 能 达到 相同 效果 而 更 为 简单 的 方法 是 ， 如 果 决 策 正 
确 ， 权 值 不 变 ; 如 果 错 误 ， 则 增加 差异 最 大 的 那些 属性 的 权 值 ， 以 强调 差异 。Aha 
(1992) 对 这 些 权 值 调整 的 算法 进行 了 详细 介绍 。 

一 个 检验 属性 加 权 方 案 是 否 有 效 的 好 方法 是 在 数据 集 所 有 实例 中 添加 无 关 属 性 。 理 想 
状况 是 ， 无 关 属 性 的 介入 ， 既 不 影响 预测 质量 ， 也 不 影响 存储 样本 的 数目 。 


6.5.4 泛 化 样本 集 


泛 化 后 的 样本 集 是 实例 空间 上 的 矩形 区 域 ， 因 为 它们 是 高 维 的 ， 所 以 称 为 超 和 矩形 
(hyper-rectangle) 。 在 对 新 的 实例 进行 分 类 时 ,很 有 必要 按 下 面 所 述 的 方法 来 修正 距离 函 
数 ， 使 之 能 计算 实例 与 超 和 矩形 间 的 距离 。 当 一 个 新 实例 被 正确 分 类 时 ， 泛 化 就 是 简单 地 将 
它 与 同一 个 类 中 最 近邻 的 样本 合并 起 来 。 最 近邻 样本 不 是 单个 实例 就 是 一 个 超 和 矩形。 在 前 
一 种 情形 下 就 产生 一 个 新 的 超 和 矩形 ， 它 包含 新 的 和 旧 的 实例 。 在 后 一 种 情形 下 ， 超 矩形 就 
会 扩大 ， 将 新 的 实例 包含 进去 。 最 后 ， 如 果 预 测 不 正确 ， 而 且 导 致 做 出 错误 预测 的 是 一 个 
超 和 矩形 ， 那 么 这 个 超 矩 形 的 边界 就 会 改变 ， 从 而 缩小 并 远离 新 的 实例 。 

很 有 必要 在 一 开始 就 决定 是 否 允 许 由 于 超 和 矩形 退 套 或 重 释 而 引起 的 过 度 泛 化 。 如 要 避 
免 过 度 泛 化 ， 在 泛 化 一 个 新 实例 之 前 要 进行 检查 ， 看 看 新 的 超 和 矩形 是 否 会 与 任何 属性 空间 
的 区 域 相 冲 突 。 如 果 有 冲突 就 放弃 泛 化 ， 将 这 个 实例 如 实 存储 起 来 。 注 意 超 矩 形 的 重 礁 正 
如 同 在 一 个 规则 集 里 ， 同 一 个 实例 被 两 条 或 两 条 以 上 的 规则 所 包含 。 

在 某 些 方案 中 ， 当 一 个 已 泛 化 的 样本 集 完 全 包含 在 另 一 个 样本 集中 时 ， 可 使 用 藤 套 ， 
就 像 在 某 些 表达 中 ， 规 则 会 有 例外 一 样 。 为 了 达到 这 个 目的 ， 当 一 个 实例 被 错误 分 类 时 ， 
应 用 一 个 后 退 启发 式 方法 ， 即 如 果 第 二 近邻 样本 能 产生 正确 的 预测 ， 则 使 用 第 二 个 近邻 样 
本 ， 再 次 尝试 泛 化 。 这 种 使 用 第 二 次 泛 化 机 制 的 方法 促使 超 和 矩形 的 嵌 套 。 如 果 一 个 实例 正 
好 落 入 一 个 代表 错误 类 的 矩形 中 ， 而 这 个 矩形 已 含有 一 个 与 此 实例 同类 的 样本 ， 那 么 它们 
两 个 就 进行 泛 化 ， 形 成 嵌 套 在 原来 的 矩形 中 的 一 个 新 的 “例外 ” 超 和 矩形 。 对 于 骨 套 泛 化 样 
本 ， 为 了 防止 同属 于 一 个 类 的 所 有 实例 泛 化 成 单个 矩形 而 占据 问题 空间 的 大 部 分 ， 学 习 过 
程 经 常 开始 于 一 小 部 分 的 实例 。 


6.5.5 用 于 泛 化 样本 集 的 距离 函数 


对 于 泛 化 样本 集 ， 很 有 必要 对 距离 函数 进行 泛 化 ， 用 于 计算 某 个 实例 距 一 个 泛 化 样本 
集 或 另 一 个 实例 的 距离 。 当 实例 点 落 在 超 和 矩形 内 时 ， 这 个 实例 距 超 矩 形 的 距离 定义 为 零 。 
一 个 最 简单 的 用 于 计算 位 于 超 和 矩形 外 的 实例 距 超 和 矩形 距离 的 方法 是 在 超 托 形 内 选择 离 这 个 
实例 最 近 的 实例 ， 并 计算 它们 之 间 的 距离 。 但 是 ， 这 种 方法 削弱 了 泛 化 的 益处 ， 因 为 它 引 
发 了 对 某 个 具体 实例 的 依赖 。 更 精确 地 说 ， 正 好 落 入 超 矩 形 的 新 实例 能 继续 保留 泛 化 的 益 
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处 ， 而 位 于 超 矩 形 之 外 的 则 不 能 。 或 许 使 用 《〈 新 实例 ) : 离 超 矩形 最 近 部 分 的 距离 来 替代 会 


更 好 。 


图 6-16 展示 了 使 用 最 近邻 点 距离 度量 方法 时 ， 两 个 矩形 类 之 间 的 隐 含 边界 。 即 使 是 


在 2 维 空间 ， 边 界 也 包含 9 个 区 域 (图 中 用 数字 标 出 ， 
方便 辨认 ) 。 那 么 在 高 维 超 矩 形 的 情况 下 就 更 复杂 了 。 

从 左下 角 开 始 ， 第 一 个 区 域 分 界线 是 直线 ， 区 域 位 
于 两 个 矩形 范围 之 外 ， 即 大 和 矩形 两 边界 的 左 方 ， 小 矩形 
两 边界 的 下 方 。 第 二 个 区 域 是 在 一 个 矩形 范围 之 内 ， 即 
大 和 拢 形 左 边界 的 右 方 ， 但 在 另 一 个 矩形 范围 之 外 ， 即 小 
和 矩形 两 边界 的 下 方 。 在 这 个 区 域 中 分 界线 呈 抛 物 线形 ， 
因为 离 一 条 给 定 线 和 一 个 给 定点 距离 相等 的 所 有 点 的 集 
合 是 一 条 抛物 线 (parabola) 。 第 三 个 区 域 是 分 界线 向 上 
能 投射 到 大 矩形 的 下 边界 而 向 右 能 投射 到 小 矩形 的 左边 
界 的 区 域 。 这 条 区 域 中 的 分 界线 是 直线 ， 因 为 它 离 两 条 
矩形 边界 是 等 距离 的 。 第 四 个 区 域 分 界线 位 于 大 矩形 的 
右 下 方 。 这 时 分 界线 呈 抛 物 线形 ， 因 为 它 是 离 大 矩形 右 
下 角 和 小 矩形 左边 界 等 距 的 点 的 轨迹 。 第 五 个 区 域 位 于 
两 个 矩形 之 间 : 这 里 分 界线 是 竖 直 的 。 右 上 部 分 图 形 重 
复 这 样 的 模式 : 先是 抛物 线 ， 接 着 是 直线 ， 然 后 又 是 抛 
物 线 (虽然 这 条 抛物 线 和 直线 很 难 区 分 )， 最 后 是 从 两 
个 矩形 的 范围 向 外 延伸 的 线性 分 界线 。 


这 个 简单 的 情形 定义 了 一 个 复杂 的 分 界 边界 ! 当然 没有 必要 显 式 地 表示 分 界线 ， 它 是 
通过 最 近邻 法 计算 得 出 的 。 然 而 ， 这 还 不 是 很 好 的 方法 。 用 超 和 矩形 中 的 最 近邻 实例 来 计算 
距离 过 度 依赖 于 某 个 具体 实例 的 位 置 ， 即 过 度 依 赖 于 和 矩形 的 某 个 角 ， 最 近邻 实例 可 能 离 这 


个 角 较 远 。 


最 后 关注 重 全 或 租 套 超 和 矩形 的 距离 度量 问题 。 因 一 个 实例 可 能 落 入 多 个 超 和 矩形 中 ， 使 
问题 复杂 化 。 适 用 于 这 种 情况 的 一 个 启发 式 方法 是 ， 选 择 包含 这 个 实例 且 超 矩形 最 为 具体 


化 的 类 ， 即 覆盖 实例 空间 最 小 的 类 。 


无 论 是 否 人 允许 重 春 或 能 套 ， 都 要 修正 距离 函数 ， 以 便 考虑 样本 预测 的 准确 率 以 及 不 同 





图 6-16 两 个 矩形 类 间 的 边界 


属性 的 相对 重要 性 ， 如 前 一 节 所 述 的 剪 枝 噪 声 样本 和 属性 加 权 一 样 。 


6.5.6 泛 化 的 距离 函数 


定义 距离 函数 有 很 多 不 同 的 方法 ， 也 很 难 找 出 理由 来 进行 任何 一 种 具体 的 选择 。 一 个 
较 好 的 方法 是 考虑 将 一 个 实例 通过 一 系列 预 设 的 初级 运算 转换 成 男 一 个 实例 ， 然 后 计算 当 
运算 方式 为 随机 选择 时 这 个 系列 运算 会 出 现 的 概率 。 如 果 考 虑 所 有 可 能 的 转换 路 径 ， 用 它 
们 的 概率 进行 加 权 ， 这 将 使 方案 更 加 健壮 。 将 这 个 方法 自然 泛 化 到 计算 某 个 实例 和 其 他 一 
系列 实例 之 间 的 距离 问题 时 ， 就 要 考虑 将 这 个 实例 转换 为 系列 中 的 所 有 实例 。 通 过 这 种 技 
AR, 使 得 考虑 每 个 实例 的 “影响 范围 ”成 为 可 能 ， 这 个 范围 是 软 边界 而 非 k 最 近邻 规则 对 


某 个 实例 的 决策 不 是 “内 ”就 是 “外 ”的 硬 边界 分 隔 。 
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用 这 种 方法 ， 对 于 一 个 类 未 知 的 测试 实例 ， 依 次 计算 它 和 每 个 类 的 训练 实例 集 的 距 
离 ， 选 择 距离 最 近 的 类 。 在 这 种 基于 转换 的 方法 中 ， 通 过 定义 不 同 的 转换 集 ， 该 方法 对 名 
目 属 性 和 数值 属性 都 同样 适合 ， 甚 至 可 用 于 一 些 不 常用 的 属性 类 型 ， 如 弧度 、 星 期 等 ， 它 
们 都 是 循环 量度 的 。 


6.5.7 讨论 


继 Aha (1992) 发 现 基 于 实例 的 学 习 方 法 结合 剪 枝 噪声 样本 和 属性 加 权能 达到 比 其 他 
学 习 方法 更 好 的 工作 效果 之 后 ， 最 近邻 法 在 机 器 学 习 领 域 流 行 起 来 。 值 得 一 提 的 是 ， 虽 然 
我 们 只 是 在 分 类 中 讨论 这 个 问题 而 没有 对 数值 预测 进行 讨论 ， 但 它们 是 同等 适用 的 : 可 以 
由 个 最 近邻 的 预测 值 根据 距离 加 权 组 合 得 出 最 终 的 预测 。 

从 实例 空间 的 角度 看 ， 标 准 规则 和 基于 树 的 表示 方法 ， 只 能 表示 与 属性 定义 的 坐标 轴 
相 平行 的 类 边界 。 这 对 名 目 属性 来 说 不 是 一 个 障碍 ， 但 对 数值 属性 来 说 则 有 问题 。 非 平行 
轴 的 类 边界 只 能 根据 在 边界 上 下 的 一 些 与 坐标 轴 平 行 矩 形 所 覆盖 的 区 域 进行 近似 ， 和 矩形 的 
数目 决定 了 近似 的 程度 。 相 反 ， 基 于 实例 的 方法 可 以 很 容易 地 表示 任意 的 线性 边界 。 即 使 
是 一 个 二 类 问题 且 每 个 类 只 有 一 个 实例 的 情况 ， 由 最 近邻 规则 得 到 的 边界 也 是 一 条 任意 方 
向 的 直线 ， 即 两 个 实例 连 线 的 垂直 平分 线 。 

简单 的 基于 实例 的 学 习 方法 除了 选择 代表 样本 外 ， 不 提供 显示 的 知识 表达 。 但 当 它 和 
样本 泛 化 结合 在 一 起 时 ， 可 以 得 到 一 组 规则 集 ， 这 组 规则 集 可 用 来 与 其 他 机 器 学 习 方 案 所 
产生 的 规则 集 相 比较 。 这 些 规则 更 趋 于 稳定 ， 因 为 改进 的 、 结 合 了 泛 化 样本 的 距离 度量 ， 
可 用 于 处 理 不 落 入 规则 内 的 实例 。 这 减少 了 产生 覆盖 整个 实例 空间 ， 甚 至 所 有 训练 实例 的 
规则 所 带 来 的 压力 。 另 一 方面 ， 大 多 数 基于 实例 的 学 习 方 案 的 增 量 特性 ， 意 味 着 在 只 看 到 
一 部 分 训练 集 时 ， 就 很 迫切 地 产生 规则 ， 而 这 不 可 避免 地 会 降低 规则 的 质量 。 

因为 不 清楚 用 何 种 方法 进行 泛 化 ， 所 以 我 们 没有 提供 各 种 运用 泛 化 的 基于 实例 学 习 的 
精确 算法 。Salzberg (1991) 提出 使 用 髋 套 样本 的 泛 化 可 以 在 多 种 问题 的 分 类 中 取得 较 高 
的 分 类 准确 率 。Wettschereck 和 Dietterich (1995) 争论 说 这 些 结论 是 偶然 的 ， 在 其 他 领域 
并 不 成 立 。Martin (1995) 揭示 了 性 能 表现 差 的 原因 是 因为 当 超 和 矩形 重 释 或 垦 套 而 引起 过 
度 泛 化 ， 而 不 是 泛 化 造成 性 能 差 。 他 还 证 实 了 在 很 多 领域 中 ， 如 果 避 免 了 重 芋 或 骨 套 的 发 
生 ， 就 会 得 到 很 好 的 效果 。Cleary 和 Trigg (1995) 提出 了 基于 转换 的 泛 化 距离 函数 。 

样本 泛 化 是 一 种 少见 的 学 习 策 略 的 例子 ， 它 的 搜索 过 程 是 从 具体 到 一 般 ， 而 树 或 规则 
归纳 过 程 是 从 一 般 到 具体 。 没 有 特别 的 理由 要 求 这 个 从 具体 到 一 般 的 搜索 必须 对 实例 采用 
严格 的 增 量 模式 ， 使 用 基本 的 基于 实例 的 方法 来 产生 规则 的 批量 处 理 方 案 也 是 存在 的 。 另 
外 ， 进 行 保守 的 泛 化 ， 对 没有 覆盖 的 实例 挑选 “最 近 ” 泛 化 是 非常 好 的 主意 ， 通 常会 对 树 
或 者 规则 归纳 有 帮助 。 


6.6 局 部 线性 模型 用 于 数值 预测 


用 于 数值 预测 的 树 就 像 普通 的 决策 树 ， 但 在 叶子 结 点 所 存储 的 是 代表 叶子 结 点 处 实例 
平均 值 的 一 个 类 值 ， 这 种 树 称 为 回归 树 (regression tree) ， 或 者 是 在 叶子 结 点 存储 了 能 预 
测 达到 叶子 结 点 的 实例 类 值 的 一 个 线性 回归 模型 ， 这 种 树 称 为 模型 树 (model tree) 。 下 面 
我 们 要 讨论 模型 树 ， 因 为 回归 树 实际 上 是 模型 树 的 一 种 特殊 情况 。 
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回归 树 和 模型 树 首先 使 用 决策 树 归纳 算法 建立 一 个 初始 树 。 但 是 ， 在 大 多 数 的 决策 树 算 


法 中 ， 属 性 分 裂 是 根据 信息 增益 最 大 化 来 选择 的 ， 在 数值 预测 中 ， 使 每 个 分 支 子 集 内 部 类 值 . 


变化 最 小 化 来 进行 属性 分 裂 是 可 行 的 。 一 旦 形成 了 基本 树 ， 就 要 考虑 从 每 个 叶子 结 点 往 回 对 
树 前 枝 ， 就 像 普通 决策 树 一 样 处 理 。 回 归 树 和 模型 树 归纳 法 的 区 别 只 是 在 于 ,后 者 的 每 个 结 
点 用 一 个 回归 平面 来 替代 一 个 常量 值 。 参 与 定义 回归 平面 的 属性 ， 正 是 那些 参与 决定 子 树 剪 
枝 的 属性 ， 即 在 当前 结 点 的 下 层 结 点 中 ,或 者 在 到 根 结 点 的 路 径 中 出 现 的 属性 。 

在 广泛 讨论 模型 树 后 ， 我 们 将 简单 地 讨论 怎样 从 模型 树 中 产生 规则 ， 然 后 介绍 另 一 种 
基于 生成 局 部 线性 模型 的 数值 预测 方法 : 局 部 加 权 线 性 回归 。 模 型 树 是 从 基本 的 分 治 决策 
树 算法 演变 而 来 ， 局 部 加 权 回 归 则 是 受 启发 于 前 一 节 讨 论 的 基于 实例 的 分 类 方法 。 与 基于 
实例 的 学 习 一 样 ， 它 在 预测 阶段 进行 所 有 “学 习 " 。 局 部 加 权 回 归 利 用 线性 回归 使 模型 与 
实例 空间 的 特定 区 域 局 部 拟 合 来 构建 模型 树 ， 但 它 采 用 了 相当 不 同 的 方法 。 


6.6.1 模型 树 


当 使 用 模型 树 来 对 一 个 测试 实例 进行 数值 预测 时 ， 像 普通 的 决策 树 一 样 ， 在 每 个 结 点 
根据 实例 的 属性 值 来 决定 走向 ， 直 至 树 的 叶子 结 点 。 叶 子 结 点 含有 一 个 基于 部 分 属性 值 的 
线性 模型 ， 使 测试 实例 得 到 一 个 原始 的 预测 值 。 

在 已 剪 枝 树 的 两 个 相 邻 叶子 结 点 的 线性 模型 之 间 不 可 避免 地 会 产生 突变 点 ， 使 用 平滑 
处 理 以 减少 突变 点 ， 而 不 是 直接 使 用 原始 的 预测 值 ， 事 实证 明 这 是 有 益 的 。 这 是 在 小 规模 
的 训练 集 上 构建 模型 的 特殊 问题 。 与 叶子 结 点 一 样 ， 平 滑 可 以 通过 在 建树 的 时 候 ， 为 每 个 
内 部 结 点 构建 线性 模型 来 实现 。 当 一 个 测试 实例 根据 叶子 结 点 模型 得 到 一 个 原始 预测 值 
时 ， 这 个 值 沿 着 树 的 一 条 路 径 过 滤 返 回 根 结 点 ， 每 个 结 点 将 这 个 值 与 该 结 点 的 线性 模型 所 
提供 的 预测 值 结 合 进行 平滑 处 理 。 

一 个 合适 的 平滑 计算 公式 是 


这 里 p' 是 要 向 上 一 层 结 点 传输 的 预测 值 ，p 是 由 下 层 结 点 传输 来 的 预测 值 ，g 是 这 个 结 点 
提供 的 预测 值 ，n 是 下 层 结 点 的 训练 实例 数量 ,% 是 平滑 常量 。 实 验 表 明 平 滑 处 理 大 大 提 
高 了 预测 的 准确 性 。 

然而 ， 不 连续 点 仍然 存在 ， 最 终 的 结果 函数 也 不 是 平滑 的 。 实 际 上 ， 在 树 构建 完 后 再 
把 内 部 结 点 模型 组 合 到 叶子 结 点 模型 中 ， 可 以 达到 同样 的 平滑 处 理 效 果 。 在 分 类 过 程 中 ， 
只 需要 使 用 叶子 结 点 模型 。 缺 点 是 叶子 结 点 模型 变 得 大 而 难以 理解 ， 因 为 当 内 部 结 点 模型 
加 入 后 ， 很 多 原来 为 零 的 系数 现在 变 为 非 零 系 数 了 。 


6.6.2 构建 树 


分 裂 标 准 用 于 决定 对 某 个 具体 结 点 的 训练 数据 了 按 哪 个 属性 分 裂 最 好 。 该 标准 基于 把 
数据 T 中 类 值 的 标准 差 看 做 是 对 这 个 结 点 的 误差 的 度量 ， 并 且 计 算 期 望 误差 减少 值 作为 对 
这 个 结 点 每 个 属性 进行 测试 的 结果 。 选 择 使 期 望 误 差 减少 值 达 到 最 大 的 属性 作为 这 个 结 点 
的 分 裂 属 性 。 

期 望 误 差 减 少 值 称 为 标准 差 减少 值 (Standard Deviation Reduction, SDR) ， 计 算 如 下 : 
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ITI 
这 里 7，7,,… 是 根据 所 选 属性 在 结 点 进行 分 裂 的 结果 数据 集 。sd(7) 是 类 值 的 标准 差 。 

当 一 个 结 点 的 实例 类 值 变 化 非常 细微 时 ， 即 当 标 准 差 的 减少 值 只 是 占 原始 标准 差 的 一 
小 部 分 时 (比如 小 于 5% ) ， 就 终止 分 裂 过 程 。 当 只 剩 下 很 少 的 实例 时 (比如 ，4 个 或 更 
W) 也 终止 分 裂 。 实 验 表明 所 得 的 预测 结果 对 这 些 立 值 选择 并 不 很 敏感 。 


6.6.3 WPH 


如 前 文 所 述 ， 不 仅 在 树 的 每 个 叶子 结 点 有 线性 模型 ， 而 且 在 每 个 内 部 结 点 也 有 线性 模 
型 ， 这 是 为 了 进行 平滑 处 理 。 在 前 枝 前 ， 未 剪 校 树 的 每 个 结 点 上 都 计算 得 到 一 个 模型 。 模 
型 的 形式 为 


ries 





SDR = sd(T) - b 


Wo + Wa, + Wa, Totem T, 

这 里 cl a, >, a, 是 属性 值 ， 权 值 w w, =, w, 用 标准 回归 法 计算 。 然 而 ， 这 里 只 
使 用 了 所 有 属性 的 一 个 子 集 一 一 例如 ， 只 有 这 个 结 点 下 层 的 子 树 中 或 者 在 到 根 结 点 的 路 径 
中 的 测试 属性 才 用 于 回归 。 注 意 ， 我 们 默认 假设 它们 都 是 数值 属性 。 在 下 一 节 中 ， 我 们 将 
讨论 名 目 属性 的 处 理 方法 。 

前 枝 过 程 使 用 了 一 个 估计 器 ， 是 每 个 结 点 对 测试 数据 期 望 误差 的 估计 器 。 首 先 ， 用 这 
个 结 点 上 所 有 训练 集 实例 的 预测 值 与 真实 类 值 之 间 的 绝对 误差 计算 平均 值 。 由 于 树 是 用 这 
个 数据 集 建立 的 ， 所 以 这 个 平均 值 对 于 未 知情 形 来 说 ， 是 一 个 低估 的 期 望 误差 。 为 了 补偿 
这 一 点 ， 将 它 与 系数 (nt+0)/(n-v) 相 乘 ， 这 里 是 这 个 结 点 的 训练 实例 数量 ,v 是 给 
出 这 个 结 点 预测 类 值 的 线性 模型 所 用 的 参数 数量 。 

在 某 个 结 点 对 测试 数据 的 期 望 误差 计算 如 上 所 述 ， 使 用 线性 模型 进行 预测 。 因 为 有 补 
偿 系数 (n+v)/(n--v)， 所 以 可 以 通过 减少 项 数 使 估计 误差 达到 最 小 化 ， 从 而 使 线性 模型 
进一步 简化 。 减 少 一 项 就 减 小 了 相 乘 的 系数 ， 这 也 许 足以 抵消 在 训练 实例 上 平均 误差 的 不 
可 避免 的 增加 。 只 要 估计 误差 还 在 降低 ， 就 可 以 继续 采用 贪心 策略 逐个 减少 项 数 。 

最 后 ， 一 旦 每 个 内 部 结 点 的 线性 模型 都 已 计算 完成 ， 只 要 期 望 估计 误差 还 在 降低 ， 就 
可 以 从 叶子 结 点 返回 对 树 剪 枝 。 将 结 点 的 线性 模型 期 望 误差 与 其 子 树 的 模型 期 望 误差 进行 
比较 。 为 了 计算 后 者 ， 将 来 自 每 个 分 支 的 误差 组 合 起 来 产生 一 个 综合 值 。 这 个 综合 值 根据 
分 支 训练 实例 的 数量 比例 对 分 支 加 权 ， 利 用 这 些 权 值 将 误差 估计 进行 线性 组 合 。 或 者 ， 也 
可 以 计算 子 树 的 训练 误差 ， 并 且 把 它 乘 以 前 面 的 补偿 系数 ， 这 是 基于 对 树 中 参数 数目 的 一 
个 特定 的 估计 (也许 是 给 每 个 分 裂 点 加 1) 得 到 的 。 





6.6.4 名 目 属性 


在 构建 模型 树 前 ， 所 有 的 名 目 属性 都 转换 成 二 进 制 变量 ， 随 后 就 被 当做 数字 一 样 对 
待 。 对 每 个 名 目 属性 ， 根 据 训 练 实例 计算 每 个 可 能 的 属性 值 所 对 应 的 平均 类 值 ， 然 后 按照 
这 些 平均 值 将 属性 值 排序 。 如 果 名 目 属性 有 个 可 能 的 取 值 ， 就 要 用 -1 个 合成 二 元 属 
性 来 替代 。 如 果 属 性 取 值 是 属性 序列 中 前 i 个 中 的 一 个 ， 那么 第 i 个 属性 值 为 0， 否 则 为 
1。 这 样 所 有 的 分 裂 都 是 二 分 的 : 所 涉及 的 不 是 一 个 数值 属性 就 是 一 个 可 与 数值 属性 同样 
对 待 的 合成 二 元 属性 。 
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可 以 证 明 在 某 个 结 点 对 于 含有 上 左 个 取 值 的 类 别 变量 ， 最 好 的 分 裂 点 是 按 每 个 属性 值 的 
平均 类 值 大 小 排序 所 得 到 的 上 -1 个 位 置 中 的 一 个 。 这 个 排序 过 程 确 实 要 在 每 个 结 点 重复 
进行 。 但 是 ， 由 于 在 树 的 下 层 结 点 中 训练 实例 数目 很 小 〈 在 某 些 情况 下 ， 结 点 没有 表现 出 
某 些 属性 所 有 的 取 值 ) ， 噪 声 的 增加 是 难以 避免 的 ， 而 只 在 构建 模型 树 之 前 进行 一 次 排序 
并 不 会 使 性 能 损失 很 多 。 


6.6.5 缺失 值 


为 了 考虑 缺失 值 ， 对 标准 差 减少 值 (SDR) 公式 进行 修改 。 包 括 缺 失 值 补 偿 ， 最 后 的 
公式 为 








| M | T.I 
SDR = pr x [sd(P) =- in x sd(7,) | 


这 里 m BARA REN Se lB, TTA EMI, T, T, 是 用 这 个 属性 进 
行 分 裂 所 得 到 的 两 个 实例 集 ， 对 属性 的 所 有 测试 都 是 二 分 的 。 

在 处 理 训练 和 测试 实例 时 ， 一 旦 选 定 某 个 属性 用 于 分 裂 ， 就 必须 将 实例 根据 它们 各 自 
在 这 个 属性 上 的 取 值 分 成 两 个 子 集 。 很 明显 ， 当 属性 值 缺失 时 就 会 发 生 问 题 。 一 种 有 趣 的 
称 为 代理 分 裂 (surrogate splitting) 的 技术 用 于 处 理 这 类 问题 。 它 寻找 另 一 个 分 裂 属性 来 代 
替 原来 的 分 裂 属性 。 被 选择 的 属性 要 与 原来 的 属性 相关 性 最 高 。 但 是 ， 这 种 技术 不 仅 复杂 
而 且 执行 起 来 很 耗 时 。 

一 个 比较 简单 的 启发 式 规则 是 用 类 值 作为 代理 属性 ， 相 信 根 据 推理 ， 它 是 最 有 可 能 与 
分 裂 属性 相关 的 一 个 属性 。 当 然 这 只 能 是 用 于 处 理 训练 实例 ， 因 为 测试 实例 的 类 是 未 知 
的 。 对 测试 实例 解决 该 问题 的 一 个 简单 方法 是 用 这 个 结 点 上 训练 实例 的 对 应 属性 的 平均 值 
来 代替 这 个 未 知 的 属性 值 ， 对 二 元 属性 来 说 ， 结 果 是 选择 拥有 多 数 实例 的 子 结 点 。 这 个 简 
单 的 法 在 实际 应 用 中 效果 不 错 。 

现在 来 详细 讨论 怎样 在 训练 过 程 中 利用 类 值 作为 代理 属性 。 首 先 处理 分 裂 属 性 值 已 知 
的 所 有 实例 。 我 们 决定 用 常规 方法 来 分 裂 浆 值 ， 将 实例 按 属性 值 排列 ， 对 每 个 可 能 的 分 裂 
点 根据 上 述 公 式 计算 SDR， 选 择 误差 减少 值 最 大 的 分 裂 点 。 只 有 分 裂 属性 值 已 知 的 实例 才 
参与 决定 分 裂 点 。 

然后 根据 测试 将 这 些 实例 分 成 LK 和 R 两 个 子 集 。 再 决定 了 或 尺 中 实例 的 哪个 平均 类 值 
较 大 ， 并 计算 这 两 个 平均 类 值 的 平均 值 。 这 样 ， 属 性 值 未 知 的 实例 就 根据 它 的 类 值 是 否 超 
过 总 平均 值 来 决定 将 它 放 入 工 还 是 RR 中 。 如 果 超 过 总 平均 值 ， 它 将 加 入 工 或 R 中 具有 较 大 
平均 类 值 的 那个 ， 否 则 就 加 入 具有 较 小 平均 类 值 的 那个 。 当 分 裂 停止 时 ， 所 有 的 缺失 属性 
值 都 用 叶子 结 点 上 训练 实例 的 相应 属性 平均 值 来 替代 。 


6.6.6 ”模型 树 归纳 的 伪 代 码 


图 6-17 给 出 了 我 们 前 面 讨论 的 模型 树 算法 的 伪 代 码 。 其 中 有 两 个 主要 部 分 : 一 个 是 
通过 连续 不 断 地 分 裂 结 点 来 构建 树 ， 由 函数 split 来 实现 ; 另 一 个 是 从 叶子 结 点 向 上 对 树 剪 
Bi, FH PRA prune 来 实现 。 数 据 结构 node 包括 : 标明 这 个 结 点 是 内 部 结 点 还 是 叶子 结 点 的 
类 型 标记 ; 指向 左 分 支 和 指向 右 分 支 的 指针 ; 到 达 结 点 的 实例 集 ; 结 点 的 分 裂 属 性 ; 一 个 
代表 这 个 节点 线性 模型 的 结构 。 
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MakeModelTree (instances) 
t 
SD - sd(instances) 
for each k-valued nominal attribute 
convert into k-1 synthetic binary attributes 
root - newNode 
root.instances - instances 
split(root) 
prune(root) 
printTree(root) 
) 
split (node) 
{ 
if sizeof(node.instances) < 4 or sd(node.instances) < 0.05*SD 
node.type = LEAF 
else 
node.type = INTERIOR 
for each attribute 
for all possible split positions of the attribute 
calculate the attribute's SDR 
node.attribute = attribute with maximum SDR 


split (node.left) 
split (node.right) 


} 
prune (node) 
{ 
if node = INTERIOR then 
prune (node. leftChild) 
prune (node. rightChild) 
node.model = linearRegression (node) 
if subtreeError(node) > error(node) then 
node.type = LEAF 
} 


subtreeError (node) 


node.left; r = node.right 
if node = INTERIOR then 
return (sizeof (l.instances) *subtreeError (1) 
+ sizeof (r.instances) *subtreeError(r) )/sizeof (node. 
instances) 
else return error (node) 


) 





图 6-17 模型 树 归纳 伪 代 码 


主 程序 一 开始 就 调用 sa 函数， 在 split 开始 时 又 再 次 调用 sa 计算 实例 集 类 值 的 标 
准 差 。 接 着 是 如 前 所 述 的 得 到 合成 二 元 属性 过 程 。 创 建 一 个 新 结 点 并 输出 最 终 树 的 标准 程 
序 没有 在 这 里 展示 。 在 split 中 ，sizeof 返回 一 个 集合 中 所 含 元 素 的 数量 。 缺 失 属性 值 
的 处 理 采 用 前 面 所 述 的 方法 。SDR 根据 上 一 节 开 头 部 分 的 公式 计算 。 虽 然 没 有 在 代码 中 显 
示 ， 但 如 果 一 个 属性 分 裂 所 产生 的 叶子 结 点 包含 的 实例 数 少 于 两 个 ， 它 的 结果 就 被 设 定 为 
无 穷 大 。 在 prune 中 ，linearRegression 程序 沿 着 子 树 一 直 向 下 搜集 属性 进行 递归 ， 
256) 对 结 点 所 含 实例 的 这 些 属 性 执行 线性 回归 形成 函数 ， 然 后 如 前 所 述 只 要 能 改进 误差 估计 ， 

就 可 以 贪心 地 减少 项 。 最 后 ， 误 差 函 数 error 返回 


Y 1 预测 类 值 的 减少 值 | 


n-tv 3 
x 实例 
7 一 7 n 
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这 里 n 是 结 点 上 的 实例 数量 ,wv 是 结 点 线性 模型 的 参数 数量 。 

图 6-18 是 利用 这 个 算法 对 一 个 含有 两 个 数值 属性 和 两 个 名 目 属性 问题 建立 模型 树 的 
例子 。 要 预测 的 是 模拟 伺服 系统 的 上 升 时 间 ， 系 统 包 括 伺 服 放大 器 、 电 机 、 导 螺杆 和 清 
架 。 名 目 属性 在 其 中 担当 着 重要 的 角色 。 各 含有 5 个 属性 值 的 名 目 属性 motor 和 screw 由 4 
个 合成 二 元 属性 所 替代 ， 表 6-2 列 出 了 对 应 的 两 组 值 。 这 些 属性 值 的 顺序 : motor 为 D、 
E, C, B, A, screw 正巧 也 是 D、E、C、B、A， 都 是 由 训练 数据 决定 的 。 使 用 motor = D 
的 所 有 实例 的 上 升 时 间 平 均值 小 于 使 用 motor = E 的 所 有 实例 的 上 升 时 间 平 均值 ， 使 用 mo- 
tor = E 的 又 小 于 使 用 motor = C 的 ， 以 此 类 推 。 从 表 6-2 所 列 的 系数 大 小 可 以 明显 看 出 ， 
motor = D 相对 于 EE、C、B、A，screw =D、E、C、B 相对 于 A, 在 LM2、LM3 和 LM4 模型 
中 (相对 于 其 他 模型 ) 起 着 主导 作用 。motor 和 screw 在 某 些 模型 中 都 处 于 次 要 角色 。 





图 6-18 包含 名 目 属性 数据 集 的 模型 树 
表 6-2 ”模型 树 中 的 线性 模型 





模型 LM1 LM2 LM3 LM4 LM5 LM6 LM/ LM8 LM9 LM10 LM11 
常数 项 0.96 1.14 1.43 1.52 2.69 1.91 0.88 0.98 1.11 1.06 0.97 
pgain -0.38 -0.38 -0.38 -0.38 -0.38 -0.38 -0.24 -0.24 -0.24 -0.25 -0.25 
vgain 0.71 0.49 0.49 0.49 0.56 0.45 013 015 0.15 0.10 0.14 


motor = D 对 应 于 E, C, B, A 0. 66 1. 14 1.06 1.06 0. 50 0. 50 0. 30 0. 40 0. 30 0.14 0.14 
motor =D, E XMF C, B, A 0.97 0.61 0. 65 0. 59 0.42 0.42 -0.02 0.06 0.06 017 022 
motor =D, E, C, 对 应 于 B, A 0.32 0.32 0.32 0.32 0.41 0.41 0.05 

motor =D, E, C, B, MFA 0. 08 0. 05 

screw =D 对 应 于 E, C, B, A 

screw =D, E, XT C, B, A 0.13 

screw D, E, C, 对 应 于 B, A 0.49 0.54 054 054 039 040 030 020 016 008 008 


screw 2D, E, B, C, XMF A 1. 73 1. 79 1.79 0.96 113 022 015 015 016 019 
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6.6.7 从 模型 树 到 规则 


从 本 质 上 ， 模 型 树 就 是 在 叶子 结 点 带 有 线性 模型 的 决策 树 。 与 决策 树 一 样 ， 它 们 都 会 
存在 3. 4 节 中 提 到 的 子 树 重复 的 问题 ， 有 时 用 规则 集 代 替 树 来 表示 这 个 结构 会 更 加 精确 一 
些 。 可 以 从 数值 预测 中 产生 规则 吗 ? 回顾 6. 2 节 中 所 述 的 规则 学 习 器 ， 它 用 变 治 法 与 局 部 
决策 树 共 同 协作 来 从 树 中 提取 决策 规则 。 可 以 应 用 同样 的 策略 从 模型 树 中 产生 用 于 数值 预 
测 的 决策 列表 。 

首先 用 所 有 的 数据 构建 一 个 局 部 模型 树 。 选 择 其 中 的 一 个 叶子 结 点 把 它 转 变 为 一 条 规 
则 。 将 这 个 叶子 结 点 所 涵盖 的 数据 去 除 ， 重 复 上 述 步 又 对 剩余 的 数据 进行 处 理 。 问 题 是 怎 
样 构建 局 部 模型 树 ， 即 一 个 未 扩展 结 点 的 树 ? 这 个 问题 归结 为 怎样 选择 下 一 个 扩展 结 点 。 
图 6-5 ( 见 6.2 15) 中 的 算法 选择 了 类 属性 的 炉 最 小 的 那个 结 点 。 对 预测 结果 是 数值 的 模 
型 树 来 说 ， 只 要 简单 地 用 方差 代替 炉 即 可 。 这 是 基于 相同 的 推理 : 方差 越 小 ， 子 树 越 浅 ， 
规则 就 越 短 。 算 法 的 其 余部 分 都 维持 不 变 ， 用 模型 树 学 习 器 的 分 裂 选 择 方法 和 剪 枝 策略 代 
蔡 决 策 树 学 习 咒 的 分 裂 和 剪 校 。 因 为 模型 树 的 叶子 结 点 是 线性 模型 ， 所 以 相应 规则 的 右边 
也 是 线性 模型 。 

用 此 方法 使 用 模型 树 产 生 规则 集 有 一 点 要 加 以 说 明 : 模型 树 学 习 器 使 用 平滑 处 理 。 使 
用 平滑 处 理 的 模型 树 不 能 降低 最 终 规则 集 预 测 的 误差 。 这 也 许 是 因为 平滑 处 理 最 好 是 用 于 
连续 数据 ， 但 在 变 治 法 中 前 一 条 规则 所 覆盖 的 数据 被 去 除了 ， 在 数据 分 布 上 留 下 了 空洞 。 
如 果 要 进行 平滑 ， 就 必须 在 规则 集 产 生 后 执行 。 


6.6.8 局 部 加 权 线 性 回归 


数值 预测 的 另 一 种 方法 就 是 局 部 加 权 线 性 回归 法 。 在 模型 树 中 ， 树 结构 将 实例 空间 分 
隔 成 不 同 的 区 域 ， 每 个 区 域 中 都 有 一 个 线性 模型 。 实 际 上 ， 训 练 数据 决定 了 实例 空间 如 何 
分 区 。 男 一 方面 ， 局 部 加 权 回 归 在 预测 时 产生 局 部 模型 ， 它 是 通过 赋予 测试 实例 的 近邻 实 
例 较 高 的 权 值 来 实现 的 。 具 体 地 说 ， 对 于 训练 实例 ， 根 据 它们 高 测试 实例 的 距离 来 加 权 ， 
然后 对 加 权 的 数据 进行 线性 回归 。 靠 近 测 试 实例 的 训练 实例 权 值 较 高 ， 远 离 测试 实例 的 权 
值 较 低 。 换 句 话说 ， 这 就 是 为 某 个 具体 的 测试 实例 特制 一 个 线性 模型 ， 并 用 它 预测 这 个 测 
试 实例 的 类 值 。 

为 了 使 用 局 部 加 权 回 归 ， 必 须 为 训练 实例 确定 一 个 基于 距离 的 加 权 方 案 。 一 种 常用 的 
选择 是 根据 训练 实例 离 测试 实例 的 欧 几 里 得 距离 的 倒数 来 进行 加 权 。 另 一 种 可 能 的 选择 是 
利用 欧 几 里 得 距离 和 高 斯 核 函 数 来 进行 加 权 。 然 而 ， 没 有 证 据 证 明 加 权 方 案 的 选择 是 关 
键 。 更 重要 的 是 用 于 衡量 距离 函数 的 “平滑 参数 ”的 选择 ， 距 离 要 与 这 个 参数 的 倒数 相 
乘 。 如 果 这 个 值 设 得 太 小 ， 只 有 非常 靠近 测试 实例 的 实例 才 会 得 到 显著 的 权 值 ; 如 果 这 个 
值 设 得 太 大 ， 则 更 多 远 距 离 的 实例 对 模型 的 建立 也 会 有 着 显著 的 影响 。 

选择 平滑 参数 的 一 种 方法 是 将 其 设 定 为 与 它 第 左近 的 训练 实例 之 间 的 距离 ， 从 而 随 着 
训练 实例 数量 的 增加 ， 这 个 值 会 越 来 越 小 。% 值 的 最 佳 选择 依赖 于 数据 中 的 噪声 的 多 少 。 
如 果 权 值 函 数 是 线性 的 ， 例 如 1 距离 (1-distance) ， 那 么 所 有 比 第 左近 实例 远 的 实例 的 权 
值 均 为 0。 其 次 ， 权 值 函 数 是 有 边界 的 ， 并且 只 需 考虑 (k-1) 个 最 近 的 邻居 来 构建 线性 
模型 。 噪 声 实例 越 多 ， 线 性 模型 中 就 需要 包含 越 多 的 近邻 实例 。 通 常 ， 合 适 的 平滑 参数 是 
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通过 交叉 验证 得 到 的 。 

与 模型 树 一 样 ， 局 部 加 权 线 性 回归 可 以 到 近 非 线性 函数 。 它 的 一 个 主要 优点 就 是 非常 
适合 于 增 量 学 习 : 所 有 训练 都 在 预测 时 完成 ， 因 此 新 的 实例 可 以 随时 加 入 训练 集中 。 但 与 
其 他 基于 实例 的 学 习 一 样 ， 获 得 对 一 个 测试 实例 的 预测 会 很 乙 。 首 先 ， 要 扫描 训练 实例 计 
算 它们 的 权 值 ， 然 后 再 对 这 些 实例 实行 加 权 线 性 回归 。 另 外 ， 与 其 他 基于 实例 的 方法 一 
样 ， 局 部 加 权 回 归 几 乎 不 能 提供 有 关 训 练 数 据 集 全 局 结构 的 信息 。 注 意 ， 如 果 平 滑 参 数 是 
基于 第 k 个 最 近邻 实例 ， 并 且 加 权 函 数 赋予 远 距 离 实 例 的 权 值 为 0， 那 么 使 用 4.7 节 中 讨 
论 的 kD 树 和 球 树 可 以 提高 寻找 相关 近邻 实例 的 速度 。 

局 部 加 权 学 习 并 不 只 局 限于 线性 回归 ， 它 可 以 应 用 于 任何 能 够 处 理 加 权 实 例 的 学 习 技 
本 。 特 别 是 可 以 应 用 于 分 类 。 大 多 数 算法 都 很 容易 调整 以 适应 处 理 权 值 。 诀 窍 是 意识 到 
(整数 ) 权 值 可 以 模拟 成 创建 同一 个 实例 的 多 个 副本 。 当 学 习 算 法 使 用 一 个 实例 计算 模型 
时 ， 就 假设 这 个 实例 同时 有 恰当 数量 的 相同 实例 伴随 着 。 如 果 权 值 不 是 整数 ， 这 点 也 同样 
适用 。 比 如 在 4.2 节 中 讨论 的 朴素 贝 叶 斯 算法 乘 以 源 自 实 例 权 值 的 计数 。 你 拥有 了 一 个 可 
以 用 于 局 部 加 权 学 习 的 朴素 贝 叶 斯 法 版 本 。 

实践 证 明 局 部 加 权 的 朴素 贝 叶 斯 法 工作 非常 出 色 ， 比 朴素 贝 叶 斯 法 和 天 最 近邻 技术 都 
好 。 它 放宽 了 朴素 贝 叶 斯 固有 的 独立 假设 ， 与 更 复杂 的 增强 朴素 贝 叶 斯 算法 进行 比较 ， 也 
能 获得 较 好 的 结果 。 局 部 加 权 学 习 的 独立 假设 仅仅 是 在 近邻 实例 之 间 ， 而 不 像 标准 的 朴素 
贝 叶 斯 方法 那样 ， 是 在 整个 实例 空间 的 全 局 独立 假设 。 

原则 上 ， 局 部 加 权 学 习 也 可 以 应 用 到 决策 树 以 及 其 他 一 些 比 线性 回归 和 朴素 贝 叶 斯 更 
为 复杂 的 模型 。 但 是 ， 此 时 应 用 局 部 加 权 学 习 获 益 较 少 ， 因 为 它 从 根本 上 来 说 是 一 种 能 让 
简单 模型 更 具 灵 活性 的 方法 ， 是 通过 允许 简单 模型 接近 任意 目标 来 实现 的 。 如 果 基 本 学 习 
算法 已 经 能 做 到 这 点 ， 就 没有 理由 应 用 局 部 加 权 学 习 。 尽 管 如 此 ， 它 仍 可 以 改进 其 他 一 些 
简单 模型 ， 如 线性 支持 向 量 机 和 Logistic 回归 模型 。 


6. 6.9 讨论 


回归 树 是 Breiman 等 (1984) 在 分 类 和 回归 树 (Classification And Regression Tree, 
CART) 系统 中 提出 的 。CART 可 以 用 于 离散 类 的 决策 树 归 纳 ， 如 C4.5， 还 可 以 作为 归纳 
回归 树 的 一 种 方案 。 上 述 许多 技术 ， 如 处 理 名 目 属性 的 方法 和 处 理 缺 失 值 的 代理 策略 ， 都 
包含 在 CART 中 。 模 型 树 只 是 在 近期 才 出 现 的 ， 最 初 是 由 Quinlan (1992) 提出 的 。 利 用 
模型 树 生成 规则 集 〈 虽 然 不 是 局 部 树 ) ， 是 Hall 等 (1999) 提出 的 。 

模型 树 归纳 的 一 个 易于 理解 的 描述 (以 及 实现 ) 技术 是 由 Wang 和 Witten (1997) 给 
出 的 。 对 于 数值 预测 ， 也 经 常 使 用 神经 网 络 ， 虽然 神经 网 络 存 在 缺点 ， 它 生成 的 模型 结构 
不 明确 并 且 不 能 帮助 理解 方案 的 本 质 所 在 。 即 便 现在 已 有 能 提供 可 理解 的 、 洞 察 神经 网 络 
结构 的 技术 ， 但 内 部 表达 的 任意 性 意味 着 由 相同 数据 训练 出 来 的 相同 网 络 体系 也 许 存 在 着 
巨大 的 差异 。 将 所 归纳 的 函数 分 隔 成 线性 模块 ， 模 型 树 提供 了 可 复制 的 、 至 少 较 易 理解 的 
一 种 表示 法 。 

有 很 多 不 同 的 局 部 加 权 学 习 的 变 体 。 例 如 ， 统 计 学 家 考虑 用 局 部 二 次 模型 代替 线性 模 
型 ， 应 用 局 部 加 权 Logistic 回归 来 处 理 分 类 问题 。 而 且 可 以 在 文献 中 找到 许多 不 同 的 潜在 
加 权 和 上 距离 函数 。Atkeson 5$ (1997) 写 出 了 一 篇 非常 出 色 的 关于 局 部 加 权 学 习 的 调研 报 
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告 ， 主 要 是 回归 问题 。Frank 等 (2003) 对 局 部 加 权 学 习 和 朴素 贝 叶 斯 法 的 结合 应 用 进行 
了 评估 。 


6.7 贝 叶 斯 网 络 


4.2 节 中 的 朴素 贝 叶 斯 分 类 器 和 4. 6 节 中 的 Logistic 回归 模型 都 是 产生 概率 估计 来 代替 
硬性 的 分 类 。 对 于 每 个 类 值 ， 它 们 都 是 估计 某 个 实例 属于 这 个 类 的 概率 。 如 有 必要 ， 大 多 
数 其 他 类 型 的 分 类 器 都 可 以 强制 产生 这 类 信息 。 例 如 ， 通 过 计算 叶子 结 点 上 每 类 的 相对 频 
率 ， 就 能 从 决策 树 中 得 到 概率 。 同 样 通过 检验 某 条 规则 所 覆盖 的 实例 ， 就 能 从 决策 列表 中 
得 到 概率 。 

概率 估计 经 常 比 简单 的 预测 更 为 用。 它们 可 以 对 所 做 的 预测 进行 排名 ， 使 期 望 成 本 
达到 最 小 化 〈 见 5.7 节 ) 。 事 实 上 ， 把 分 类 学 习 当 做 是 从 数据 中 学 习 类 概率 估计 的 任务 来 
完成 ， 还 存在 很 大 的 争议 。 所 估计 的 是 给 定 其 他 属性 值 时 类 属性 值 的 条 件 概率 分 布 。 理 想 
情况 下 ， 分 类 模型 是 用 一 种 简洁 易 懂 的 形式 来 表达 这 个 条 件 分 布 。 

由 此 看 来 ， 朴 素 贝 叶 斯 分 类 器 、Logistic 回归 模型 、 决 策 树 等 只 是 用 不 同 的 方法 表达 
条 件 概率 的 分 布 。 当 然 ， 它们 的 表达 能 力 有 所 差别 。 朴 素 贝 叶 斯 分 类 器 和 Logistic 回归 模 
型 只 能 表达 较 简 单 的 分 布 ， 而 决策 树 却 至 少 可 以 近似 表达 任意 分 布 。 但 决策 树 也 有 缺陷 : 
它们 将 训练 集 分隔 成 越 来 越 小 的 数据 集 ， 必 然 造成 概率 估计 可 靠 性 的 下 降 ， 并 且 还 存在 
3.4 节 中 提 到 的 重复 子 树 问题 。 规 则 集 似乎 可 以 克服 这 些 缺 点 ， 但 是 一 个 好 的 规则 学 习 器 
设计 所 采用 的 启发 式 方法 尚 缺乏 理论 依据 。 

这 是 否 意味 着 只 能 认命 ， 让 这 些 缺 陷 继续 存在 ? 不! 有 一 种 基于 统计 理论 的 方法 : R 
有 较 强 的 理论 根基 ， 采 用 图 形 方 式 简洁 易 懂 地 表达 概率 分 布 的 方法 。 这 个 结构 称 为 贝 叶 斯 
网 络 (Bayesian network) 。 画 出 的 图 形 就 像 是 节点 的 网 络 图 ， 每 个 结 点 代表 一 个 属性 ， 节 
点 间 用 有 向 线段 连接 ， 但 不 能 形成 环 ， 即 一 个 有 向 无 环 图 (directed acyclic graph) 。 

在 解释 贝 叶 斯 网 络 如 何 工 作 的 以 及 怎样 从 数据 中 学 习 贝 叶 斯 网 络 时 ， 要 做 一 些 简 化 假 
设 。 假 设 所 有 属性 都 是 名 目 属性 并 且 没 有 缺失 值 。 有 些 高 级 的 学 习 算法 可 以 产生 包含 在 数 
据 之 外 的 新 属性 ， 称 为 隐藏 属性 ， 它 们 的 属性 值 是 看 不 到 的 。 如 果 这 些 属性 表现 了 潜在 问 
题 的 特征 ， 就 能 支持 产生 更 好 的 模型 ， 而 贝 叶 斯 网 络 提供 了 一 个 很 好 的 方法 能 在 预测 时 使 
用 这 些 属性 。 然 而 ， 这 使 得 学 习 和 预测 更 为 复杂 并 且 耗 时 ， 因 此 这 里 不 对 它 进行 讨论 。 


6.7.1 预测 


6-19 展示 了 一 个 关于 天 气 数据 的 贝 叶 斯 网 络 的 简单 实例 。 图 6-19 中 数据 的 4 个 属 
性 outlook, temperature, humidity 和 windy 以 及 类 属性 play 分 别 用 结 点 表示 。 从 play 结 点 
到 其 他 结 点 各 有 一 条 边 。 但 在 贝 叶 斯 网 络 中 图 结构 只 是 它 的 一 部 分 。 在 图 6-19 中 ， 每 个 
结 点 内 还 含有 一 个 列表 。 表 中 的 信息 定义 了 将 用 于 预测 任意 一 个 实例 类 概率 的 概率 分 布 。 

在 讨论 怎样 计算 这 个 概率 分 布 之 前 ， 先 考虑 表 中 的 信息 。 下 方 的 4 个 表 (outlook, 
temperature, humidity 和 windy) 被 一 根 竖 线 划分 成 两 个 部 分 。 左 边 是 play 的 属性 值 ， 右 边 
对 应 的 是 这 个 结 点 所 代表 属性 的 各 个 属性 值 的 概率 。 一 般 来 说 ， 左 边 包 含 的 每 列 分 别 代表 
每 个 指向 该 结 点 的 属性 ， 这 里 只 有 play 属性 。 这 也 是 play 结 点 本 身 列表 中 左边 没有 信息 的 
RA: 它 没有 父 结 点 。 每 行 的 概率 对 应 于 一 组 父 结 点 属性 值 组 合 ， 行 中 的 每 个 概率 代表 了 
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Sa 
a 
* 
W 










play 


play 
yes no 
0.633 0.367 





outlook 


play outlook 
my o ercast rainy 
yes 0. 238 0.429 0.333 
0.538 0.077 . 0.385 






play windy 
false — true 

yes |0.350 0.650 

no |0.583 0.417 





temperature 


play temperature 
hot mild cool 
yes 0.238 0.429 0. 333 
0.385 0.385 0231 





humidity 


图 6-19 ”天气 数据 的 一 个 简单 的 贝 叶 斯 网 络 实例 


这 个 结 点 属性 的 每 个 属性 值 对 应 于 该 属性 值 组 合 的 概率 。 实 际 上 ， 每 行 都 是 对 该 结 点 属性 
的 属性 值 的 一 个 概率 分 布 定义 。 每 行 中 各 个 概率 的 总 和 始终 是 1。 

图 6-20 展示 了 相同 问题 的 一 个 更 为 复杂 的 网 络 ， 这 时 其 中 3 个 结 点 (windy, tempera- 
ture 和 humidity) 有 两 个 父 结 点 。 而 且 ， 每 个 父 结 点 都 会 在 左边 产生 一 列 ， 右 边 的 列 数 等 
于 结 点 属性 的 属性 值 数量 。 考 虑 temperature 结 点 所 含 列 表 的 第 一 行 。 左 边 列 出 了 它 的 每 个 
父 结 点 属性 的 属性 值 : play 和 outlook; 右边 列 出 了 每 个 temperature 属性 值 的 概率 。 例 如 ， 
第 一 个 数字 (0.143) 是 当 play 和 outlook 的 属性 值 分 别 为 yes 和 sunny HY, temperature 的 
属性 值 为 hot 的 概率 。 

怎样 利用 这 些 表 来 预测 某 个 实例 的 每 个 类 值 的 概率 呢 ? 由 于 假设 没有 缺失 值 ， 所 以 这 
就 变 得 很 简单 了 。 实 例 的 每 个 属性 都 有 确定 的 属性 值 。 对 网 络 中 的 每 个 结 点 ， 根 据 父 结 点 
属性 值 找 到 相应 的 行 ， 查 看 该 行 结 点 属性 值 的 概率 。 然 后 将 这 些 概率 相 乘 。 

例如 ， 考 虑 这 样 一 个 实例 outlook = rainy, temperature = cool, humidity = high, windy = 
true。 为 了 计算 play = no 的 概率 ， 查 看 图 6-20 中 的 网 络 ，play 结 点 给 出 概率 0.367, out- 
look 结 点 给 出 概率 0. 385, temperature 结 点 给 出 概率 0.429, humidity 结 点 给 出 概率 0. 250, 
windy 结 点 给 出 概率 0. 167。 它 们 的 乘积 是 0.0025。 对 play = yes 也 做 相同 的 计算 ， 得 到 
0. 0077。 显 然 ， 这 并 不 是 最 终 的 答案 : 最 终 概率 之 和 应 为 1， 而 现在 0.0025 和 0.0077 之 
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和 不 等 于 1。 实际 上 ， 它 们 是 Pr[ play =no, E] 和 Pr[play=yes, E] 的 联合 概率 ， HP E 
是 指 由 这 个 实例 的 属性 值 所 给 出 的 所 有 证 据 。 联 合 概率 既 度 量 实例 的 属性 值 出 现在 五 中 的 
可 能 性 ， 也 度量 相应 的 类 值 。 只 有 耗 尽 了 包括 类 属性 在 内 的 所 有 可 能 的 属性 值 组 合 空间 
时 ， 它 们 的 和 才 为 1。 这 个 例子 当然 不 属于 这 种 情况 。 





play 
play 


yes no 
0.633 0.367 





sunny 
yes overcast 
yes rainy 

no sunny 
no overcast 
rainy 






















outlook 
humidity 















play outlook 

sunny overcast rainy di 
yes |0.238 0.429: 0333 uad ue 
no |0.538 0.077 0385 hot 0.500 0.500 












yes mild 0.500 0.500 
yes cool 0.125 0.875 
no hot 0.833 0.167 
no mild 0.167 


cool 






temperature 






sunny 
yes overcast 
yes rainy 

no sunny 
no  overcast 
rainy 








图 6-20 ”天 气 数 据 的 另 一 个 贝 叶 斯 网 络 


解决 方法 很 简单 (在 4.2 节 中 曾 遇 到 过 )。 要 得 到 条 件 概 率 Pr[play = no, E] 和 
Pr[ play =yes, E], ， 只 要 将 这 两 个 联合 概率 归 范 化 处 理 ， 即 分 别 除 以 两 者 之 和 。 得 到 
play = no 的 概率 为 0.245 play = yes 的 概率 为 0.755 。 

只 剩 下 一 个 未 解决 的 问题 了 : 为 什么 将 这 些 概率 相 乘 呢 ? 乘积 步骤 的 有 效 性 是 有 一 个 
前 提 假 设 ， 那 就 是 给 定 每 个 父 结 点 的 属性 值 ， 知 道 任 何其 他 非 子孙 结 点 的 属性 值 并 不 能 使 
该 结 点 的 各 个 可 能 的 属性 值 所 对 应 的 概率 发 生变 化 。 换 句 话 说 ， 就 是 非 子 孙 结 点 并 不 能 提 
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供 任何 多 于 父 结 点 所 能 提供 的 有 关 该 结 点 属性 值 的 信息 。 这 点 可 以 表示 为 

Pr[ 结 点 | 父 结 点 加 上 其 他 非 子孙 结 点 ] = Pr[ 结 点 | RAR] 
所 有 涉及 结 点 和 属性 的 值 都 必须 遵守 这 条 假设 。 在 统计 学 中 ， 这 称 为 条 件 独立 性 〈condi- 
tional independence) 。 给 定 父 结 点 ， 每 个 结 点 对 于 它 的 祖父 结 点 、 曾 祖父 结 点 以 及 其 他 非 
子孙 结 点 都 是 条 件 独立 的 ， 在 这 种 情形 下 乘积 是 有 效 的 。 乘 积 步 又 遵循 概率 论 中 的 链 式 规 
则 ， 链 式 规则 表明 m 个 属性 a, 的 联合 概率 可 以 分 解 为 如 下 的 乘积 : 


Pr[ a, ,a; ,**:a, | IIPta. a; ,,777,a,] 
i=l 


这 个 分 解 表达 式 对 于 任何 一 种 属性 排列 都 是 成 立 的 。 因 为 贝 叶 斯 网 络 是 一 个 无 环 图 ， 可 以 将 
网 络 结 点 进行 排列 ， 使 结 点 a; 的 所 有 祖先 的 序号 都 小 于 ;。 然后 ， 由 于 有 条 件 独立 的 假设 ， 


Pr[ a, ,oaw] [Prl o; | ac ai] = [[ Prila; | a; 的 父 结 点 ] 
i=l i=l 


这 正 是 前 面 所 应 用 的 乘积 规则 。 

图 6-19 和 图 6-20 展示 的 两 种 贝 叶 斯 网 络 是 完全 不 同 的。 第 一 个 〈 见 图 6-19) 具有 更 
为 严格 的 独立 假设 ， 因 为 它 的 每 个 结 点 的 父 结 点 都 是 第 二 个 〈 见 图 6-20) 中 所 对 应 的 每 
个 结 点 的 父 结 点 的 一 个 子 集 。 实 际 上 ， 图 6- 19 几乎 就 是 4.2 节 中 的 朴素 贝 叶 斯 分 类 器 
(概率 计算 略 有 不 同 ， 只 是 因为 每 个 累计 数 都 被 初始 为 0.5 以 避免 零 频 率 问 题 ) 。 图 6-20 
网 络 中 的 条 件 概率 列表 含有 更 多 的 行 ， 因 此 需要 更 多 的 参数 。 它 可 能 是 对 潜在 领域 更 精确 
的 一 种 表示 法 。 

假设 贝 叶 斯 网 络 中 的 有 向 边 代 表 的 是 因果 关系 ， 这 是 一 个 非常 诱 人 的 假设 。 要 谨慎 ! 
在 上 述 例子 中 ，Pplay 的 属性 值 会 使 outlook 的 某 个 具体 值 所 对 应 的 期 望 值 提高 ， 但 事实 上 两 
者 并 没有 因果 关系 ， 也 许 有 可 能 是 相反 的 。 可 以 建立 不 同 的 贝 叶 斯 网 络 来 表示 具有 相同 概 
率 分 布 的 相同 问题 。 这 可 以 利用 条 件 独立 性 对 联合 概率 分 布 进行 分 解 来 实现 。 使 用 有 向 边 
反映 因果 关系 模式 的 网 络 是 最 简单 的 ， 它 包含 的 参数 最 少 。 因 此 ， 为 某 个 特定 领域 构建 由 
叶 斯 网 络 的 专家 经 常 受 益 于 用 有 向 边 来 表示 因果 关系 。 然 而 ， 当 使 用 机 器 学 习 技术 从 因果 
结构 未 知 的 数据 中 推导 模型 时 ， 所 能 做 的 只 是 根据 从 数据 中 观察 到 的 相关 性 建立 网 络 。 而 
从 相关 性 推导 因果 关系 的 风险 总 是 很 大 的 。 


6.7.2 学 习 贝 叶 斯 网 络 


为 贝 叶 斯 网 络 建立 一 种 学 习 算 法 的 主要 方法 是 定义 两 个 组 成 部 分 : 一 个 是 对 基于 某 个 
数据 集 的 网 络 进行 评估 的 评估 函数 ， 另 一 个 是 在 所 有 可 能 的 网 络 空间 中 搜索 的 搜索 方法 。 
某 个 给 定 网 络 的 质量 是 根据 给 定 网 络 的 数据 概率 来 度量 的 。 我 们 计算 网 络 与 每 个 实例 相符 
的 概率 ， 然 后 将 所 有 实例 的 概率 相 乘 。 在 实践 中 ， 很 快 会 使 这 个 数字 变 得 非常 小 ， 以 至 于 
不 能 较 好 地 反映 质量 (EROS REA CT (arithmetic underflow) ) ， 因 此 我 们 使 用 概率 对 数 的 
总 和 来 代替 原先 的 乘积 。 最 终 的 计算 结果 就 是 给 定数 据 的 网 络 的 对 数 似 然 。 

假设 网 络 结构 ( 即 所 有 的 边 ) 是 已 知 的 。 很 容易 估计 条 件 概率 表 中 所 列 的 数字 : 只 要 
计算 训练 数据 中 对 应 属性 值 组 合 的 相对 频率 。 为 了 避免 零 频 率 的 出 现 ， 像 4. 2 节 所 述 的 那 
样 使 用 一 个 常量 来 初始 化 计数 。 例 如 ， 为 要 找 出 已 知 play = yes 和 temperature = cool AY, 
humidity = normal 的 概率 (图 6-20 中 的 humidity 节点 表 中 第 三 行 的 最 后 一 个 数字 ) MA 
表 1-2 中 可 观察 到 ， 天 气 数据 中 有 3 个 实例 含有 这 样 的 属性 值 组 合 ， 却 没有 humidity = 
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high， 同 时 含 相同 的 play 和 temperature 属性 值 的 实例 。 将 humidity 两 个 属性 值 的 计数 初始 
设 为 0.5， 得 到 humidity = normal 的 概率 为 (3 +0.5)/(3 +0 +1) =0. 875, 

网 络 中 的 结 点 是 预 设 好 的 : 每 个 属性 各 有 一 个 (包括 类 别 )。 学 习 网 络 结构 等 于 是 在 
可 能 的 有 向 边 空间 进行 搜索 ， 对 每 组 的 条 件 概 率 表 进行 估计 ， 并 计算 结果 网 络 基 于 某 个 数 
据 集 的 对 数 似 然 ， 以 此 作为 对 网 络 质 量 的 度量 。 各 种 贝 叶 斯 网 络 学 习 算 法 的 不 同 之 处 在 于 
它们 在 网 络 结构 空间 的 搜索 方式 。 以 下 是 一 些 算法 的 介绍 。 

有 一 点 需要 说 明 。 如 果 对 数 似 然 基于 训练 数据 集 进行 了 最 大 化 ， 增 加 更 多 的 有 向 边 总 
是 会 获得 较 好 的 结果 。 造 成 最 终 的 网 络 过 度 拟 合 。 很 多 方法 可 用 于 解决 这 个 问题 。 一 种 可 
能 的 方法 是 采用 交叉 验证 法 来 估计 拟 合 的 良好 度 。 第 二 种 是 根据 参数 数目 ， 相 应 增加 网 络 
复杂 度 惩罚 ， 即 在 所 有 概率 列表 中 独立 估计 的 总 数目 。 每 个 表 中 ， 独 立 概率 的 数目 是 表 中 
所 有 概率 的 总 个 数 减 去 最 后 一 列 中 的 个 数 。 由 于 每 行 概率 的 和 应 为 1， 所 以 最 后 一 列 的 概 
率 可 以 根据 其 他 列 的 值 导 出 。 假 设 K 为 参数 数量 ，LL 表示 对 数 似 然 ，N 为 数据 集中 的 实 
例 数量 ， 有 两 个 常用 的 度量 方法 可 用 于 评估 网 络 质 量 : Akaike 信息 准则 (Akaike Informa- 
tion Criterion, AIC); 

AIC 得 分 =-LL+K 
下 面 是 基于 最 短 描 述 长 度 原理 的 MDL 度量 : 
MDL 得 分 = - LL + HogN 


这 两 个 表达 式 中 对 数 似 然 都 是 负数 ， 因 此 目标 就 是 使 它们 的 得 分 最 小 化 。 

第 三 个 可 能 的 方法 是 赋予 网 络 结构 一 个 先 验 分 布 ， 通 过 组 合 先 验 概率 以 及 数据 与 网 络 
相符 的 概率 ， 找 出 可 能 性 最 大 的 网 络 。 这 是 网 络 评分 的 “ 贝 叶 斯 ”方法 。 根 据 所 使 用 的 先 
验 分 布 ， 可 以 有 多 种 形式 。 但 是 ， 真 正 的 贝 叶 斯 要 平衡 所 有 可 能 的 网 络 结构 ， 而 不 是 只 取 
其 中 某 个 具体 网 络 进行 预测 。 不 幸 的 是 ， 这 需要 进行 大 量 的 计算 。 一 个 简化 的 方案 是 平均 
某 个 给 定 网 络 的 所 有 子 结构 网 络 。 改 变 计算 条 件 概 率 表 所 采用 的 方法 ， 从 而 使 结果 概率 估 
计 包 含 来 自 所 有 子 网 络 的 信息 ， 这 个 方案 实现 起 来 非常 有 效 。 这 个 方案 的 细节 也 相当 复 
杂 ， 这 里 就 不 再 讨论 了 。 

如 果 使 用 适当 的 评分 度量 ， 搜 寻 一 个 好 的 网 络 结构 的 任务 可 以 大 大 地 简化 。 回 顾 一 个 
网 络 中 某 个 实例 的 概率 是 所 有 条 件 概 率 表 中 单个 概率 的 乘积 。 数 据 集 的 总 体 概率 是 把 所 有 
实例 的 这 些 乘积 再 进行 乘积 运算 得 到 的 。 由 于 乘积 运算 中 的 项 是 可 互 换 的 ， 所 以 这 个 乘积 
可 以 重 写 为 把 同属 一 个 表 的 各 个 系数 组 合 在 一 起 的 形式 。 这 同样 适合 使 用 对 数 似 然 用 求 和 
运算 代替 乘积 运算 。 这 意味 着 似 然 的 优化 可 以 在 网 络 的 每 个 结 点 中 分 别 进 行 。 它 可 以 通过 
增加 或 去 除 其 他 结 点 指向 正在 进行 优化 的 结 点 的 边 来 完成 ， 唯 一 的 限制 就 是 不 可 引入 环 。 
如 果 使 用 局 部 评分 度量 (如 AIC 或 MDL) 方案 来 代替 朴素 的 对 数 似 然 ， 这 个 诀窍 也 同样 
生效 ， 因 为 惩罚 项 会 被 分 裂 成 多 个 组 成 部 分 ， 每 个 结 点 各 一 个 ， 而 且 每 个 结 点 可 以 进行 独 
立 的 优化 。 





6.7.3 算法 细节 


现在 来 看 看 用 于 贝 叶 斯 网 络 学 习 的 实际 算法 。 一 个 简单 而 快速 的 叫做 K2 的 学 习 算法 
起 始 于 某 个 给 定 的 属性 〈 即 结 点 ) 的 排序 。 然 后 ， 对 每 个 结 点 依次 进行 处 理 ， 贪 心地 增加 
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从 先前 处 理 过 的 结 点 指向 当前 结 点 的 边 。 每 一 步 过 程 中 都 增加 那些 能 使 网 络 得 分 达到 最 高 
值 的 边 。 当 不 再 有 改进 时 ， 便 将 注意 力 转 向 下 一 个 结 点 。 每 个 结 点 的 父 结 点 数量 可 以 限制 
在 一 个 预 设 的 最 大 值 范围 内 ， 这 是 为 防止 过 度 拟 合 附加 的 机 制 。 由 于 只 考虑 起 始 于 前 面 已 
经 处 理 过 的 结 点 的 边 ， 并 且 顺 序 是 固定 的 ， 所 以 这 个 过 程 不 会 产生 环 。 但 是 ， 结 果 依赖 于 
初始 排序 ， 因 此 采用 不 同 的 随机 排序 多 次 运行 算法 是 有 意义 的 。 

朴素 贝 叶 斯 分 类 器 是 这 样 一 种 网 络 ， 它 的 边 是 由 类 属性 指向 其 他 每 个 属性 。 当 为 分 类 
建立 网 络 时 ， 使 用 这 种 网 络 作为 搜寻 起 点 有 时 还 是 有 帮助 的 。 可 以 使 用 K2 方案 来 实现 ， 
强制 把 类 属性 列 为 序列 中 的 第 一 个 属性 并 合理 地 设 定 初 始 边 。 

另 一 个 潜在 的 有 用 技巧 就 是 要 确保 数据 的 每 个 属性 都 在 类 属性 结 点 的 马尔 可 夫 毯 
(Markov blanket) 范围 内 。 一 个 结 点 的 马尔 可 夫 毯 包含 该 结 点 的 父 结 点 、 子 结 点 以 及 子 结 
点 的 父 结 点 。 可 以 证 明 结 点 与 它 的 马尔 可 夫 毯 内 的 所 有 其 他 结 点 都 是 条 件 独立 的 。 因 此 ， 
如 果 一 个 结 点 不 包括 在 类 属性 的 马尔 可 夫 毯 内 ， 那 么 该 结 点 所 代表 的 属性 与 分 类 就 是 毫 无 
关系 的 。 反 过 来 ， 如 果 K 发 现 一 个 网 络 没有 将 某 个 相关 属性 包含 在 类 属性 的 马尔 可 夫 毯 
内 ， 或 许可 以 增加 一 条 边 来 纠正 这 个 缺点 。 一 个 简单 的 方法 就 是 增加 一 条 从 这 个 属性 结 点 
指向 类 结 点 (或 相反 ) 的 边 ， 这 要 取决 于 哪 种 方向 可 以 避免 环 。 

不 进行 节点 排序 ， 而 是 采取 贪心 考虑 增加 或 去 除 任意 一 对 结 点 间 的 边 〈 当然 始终 要 保 
证 无 环 ) 是 一 个 更 为 周全 但 却 较 慢 的 K2 版 本 。 再 进一步 就 是 要 同时 考虑 反 转 现 有 的 边 。 
使 用 任何 的 贪心 算法 ， 结 果 网 络 都 只 能 代表 某 个 评分 函数 局 部 最 大 值 : 通常 建议 采用 不 同 
的 随机 初始 值 多 次 运行 算法 。 还 可 使 用 如 模拟 退火 、 禁 鼠 搜索 或 者 遗传 算法 等 更 为 复杂 的 
优化 策略 。 

另 一 种 较 好 的 贝 叶 斯 网 络 分 类 器 学 习 算 法 称 为 树 扩展 朴素 贝 叶 斯 (Treeaugmented Naive 
Bayes，TAN) 。 正 如 它 的 名 称 所 暗示 的 ， 它 是 在 朴素 贝 叶 斯 分 类 器 上 添加 边 得 到 的 。 类 属性 
是 朴素 贝 叶 斯 网 络 中 每 个 结 点 的 单个 父 结 点 ，TAN 考虑 为 每 个 结 点 增加 第 二 个 父 结 点 。 如 果 
排除 类 结 点 和 其 相应 的 所 有 边 ， 假 设 只 有 一 个 结 点 没有 增加 第 二 个 父 结 点 ,, 那么 结果 分 类 器 
包含 一 个 以 无 父 结 点 的 结 点 为 根 结 点 的 树 结构 一 一 这 也 是 TAN 名 称 的 由 来 。 对 于 这 类 限制 
型 的 网 络 ， 有 一 种 有 效 的 算法 能 找 出 使 网 络 似 然 达到 最 大 值 的 边 集 ， 它 是 以 计算 网 络 的 最 大 
加 权 生 成 树 为 基础 的 。 这 个 算法 与 实例 数量 呈 线 性 关系 ， 与 属性 数量 呈 二 次 关系 。 

TAN 算法 学 习 得 到 的 网 络 类 型 叫做 单 依赖 估计 器 (one-dependence estimator) 。 一 种 更 
为 简单 的 网 络 类 型 叫做 超 父 单 依赖 估计 器 (superparent one- dependence estimator) 。 这 里 ， 
除了 类 结 点 以 外 ， 只 有 一 个 其 他 结 点 与 父 结 点 的 状态 相关 ， 并 且 该 结 点 是 每 个 其 他 非 类 结 
点 的 父 结 点 。 将 这 些 单 依赖 估计 器 简单 组 合 在 一 起 就 可 以 得 到 一 个 非常 准确 的 分 类 器 : 在 
每 个 单 依赖 估计 器 中 ， 都 有 一 个 不 同 的 属性 成 为 额外 的 父 结 点 。 那 么 ， 在 预测 时 ， 从 不 同 
的 单 依赖 估计 器 得 到 的 类 概率 估计 只 是 简单 的 取 平 均值 。 这 个 方法 叫做 平均 单 依赖 估计 器 
( Averaged One- Dependence Estimator, AODE) 。 通常 ， 只 有 数据 中 满足 一 定 支 持 度 的 估计 
器 才 会 用 于 组 合 中 ， 但 是 也 可 以 使 用 更 加 复杂 的 筛选 方法 。 由 于 每 个 超 父 单 依赖 估计 器 都 
不 涉及 结构 学 习 ， 所 以 AODE 是 一 个 非常 快 的 估计 器。 

到 目前 为 止 所 讨论 的 评分 度量 都 是 基于 似 然 的 ， 意 义 在 于 使 每 个 实例 的 联合 概率 
Pr[a,,a,, 5, a,] 最 大 化 。 然 而 ， 在 分 类 问题 中 ， 真 正 要 最 大 化 的 是 在 给 定 其 他 属性 值 
的 情况 下 类 的 条 件 概 率 ， 换 句 话说 就 是 条 件 似 然 。 不 幸 的 是 ， 对 贝 叶 斯 网 络 的 列表 中 所 需 
要 的 最 大 条 件 似 然 概率 估计 没有 解析 解 。 另 一 方面 ， 为 某 个 给 定 的 网 络 和 数据 集 计 算 条 件 
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似 然 是 很 直截了当 的 ， 这 正 是 Logistic 回归 所 要 做 的 。 因 此 有 人 提议 在 网 络 中 使 用 标准 最 
大 似 然 概 率 估计 ， 而 对 某 个 具体 的 网 络 结构 则 采用 条 件 似 然 来 评估 。 

另 一 种 使 用 贝 叶 斯 网 络 进行 分 类 的 方法 是 为 每 个 类 的 值 根据 属于 该 类 的 数据 分 别 建立 
网 络 ， 并 利用 贝 叶 斯 规则 来 组 合 这 些 网 络 预测 结果 。 这 一 组 网 络 称 为 贝 叶 斯 复 网 ( Bayes- 
ian multinet) 。 要 得 到 某 个 类 值 的 预测 ， 将 相应 网 络 的 概率 乘 以 类 值 的 先 验 概率 。 与 前 面 
一 样 ， 对 每 个 类 都 进行 如 此 操作 并 将 结果 进行 规范 化 处 理 。 在 这 种 情形 下 ， 我 们 不 采用 条 
件 似 然 为 每 个 类 值 进行 网 络 学 习 。 

上 述 所 有 网 络 学 习 算法 都 是 基于 得 分 的 。 另 一 种 不 同 的 策略 是 ， 通 过 对 各 个 基于 属性 
子 集 的 条 件 独立 性 进行 测试 ， 拼 凑 一 个 网 络 ， 这 里 不 进行 讨论 。 这 就 是 所 谓 的 条 件 独立 测 


试 的 结构 学 习 (structure learning by conditional independence tests) , 
6.7.4 用 于 快速 学 习 的 数据 结构 


学 习 贝 叶 斯 网 络 涉及 大 量 的 计数 。 对 于 搜索 过 程 中 考虑 的 每 个 网 络 结构 ， 必 须 重新 扫 
描 数据 ， 以 获得 填写 表 中 的 条 件 概 率 所 需 的 计数 。 是 否 可 以 将 它们 保存 在 某 种 数据 结构 中 
以 消除 一 次 又 一 次 重新 扫描 数据 的 需要 呢 ? 一 种 显而易见 的 方法 就 是 预先 计算 计数 并 将 非 
零 数 值 保存 在 一 个 表 中 ， 比 如 4. 5 节 中 提 到 的 散 列 表 。 即 使 如 此 ， 任 何 非 平凡 的 数据 集 都 
将 会 产生 大 量 的 非 零 计数 。 

再 次 考虑 表 1-2 中 的 天 气 数据 。 表 中 有 5 个 属性 ， 其 中 2 个 属性 各 含 3 个 属性 值 ， 另 
外 3 个 属性 各 含 2 个 属性 值 。 这 就 给 出 4 x4 x3 x3 x3 =432 个 可 能 的 计数 。 乘 积 中 的 每 
个 部 分 各 对 应 于 一 个 属性 ， 各 自 对 于 乘积 的 贡献 比 它 所 含 属 性 值 数 量 多 一 个 ， 这 是 因为 在 
计数 中 这 个 属性 可 以 没有 。 所 有 这 些 计数 计算 可 以 当做 如 4.5 节 中 所 描述 的 项 集 来 处 理 ， 
最 小 覆盖 数量 设 为 1。 即使 不 保存 零 计 数 ， 运 行 这 个 简单 的 方案 也 会 很 快 带 来 内 存 问题 。 
6. 3 节 中 的 FP- growth 数据 结构 是 用 于 挖掘 项 集 时 的 有 效 数据 表示 。 下 面 我 们 将 介绍 一 个 
用 于 贝 叶 斯 网 络 的 类 似 的 数据 结构 。 

可 以 用 一 种 称 为 全 维 树 ( All- Dimensionstree tree, AD tree) 的 结构 来 有 效 地 存储 计数 ， 
它 类 似 于 4.7 节 所 描述 的 用 于 最 近邻 搜索 的 kD 树 。 为 了 简单 ， 这 里 使 用 简化 版 的 天 气 数 
据 来 进行 描述 ， 简 化 数据 只 含有 humidity、windy 和 play 这 三 个 属性 。 图 6-21a 汇总 了 数 
fi, BAA PASH T 8 组 数据 ， 但 可 能 的 计数 数量 有 3 x3 x3 =27 个 。 例 如 ，play = no 
的 计数 是 5。( 累加 起 来 !) 

图 6-21b 展示 的 是 这 个 数据 的 AD 树 。 每 个 结 点 显示 了 从 树 根 到 该 结 点 路 径 满 足 每 个 
属性 值 测试 的 实例 数 。 例 如 ， 最 左 端的 叶子 结 点 显示 有 1 个 实例 ， 它 的 humidity = normal, 
windy = true 以 及 play =no， 而 最 右 端的 叶子 结 点 显示 有 5 个 play = no 的 实例 。 

将 所 有 27 种 计数 情形 都 显示 出 来 的 树 没 有 什么 意义 。 然 而 ， 由 于 只 包含 8 个 计数 ， 
所 以 这 个 树 所 能 获得 的 计数 没有 比 简单 的 表 多 ， 显 然 这 不 是 图 6-21b 中 的 树 。 例 如 ， 没 有 
测试 humidity = high 的 分 支 。 树 是 怎样 创建 的 ， 怎 样 才能 从 中 得 到 所 有 的 计数 呢 ? 

假设 数据 的 每 个 属性 都 分 配 了 一 个 索引 。 在 简化 版 天 气 数 据 中 ， 赋 予 humidity 索引 为 
1, windy 索引 为 2，play 索引 为 3。AD 树 是 这 样 形成 的 ， 每 个 结 点 都 有 一 个 对 应 的 属性 1, 
该 结 点 是 根据 索引 7 >i 的 所 有 属性 的 属性 值 进行 扩展 的 ， 它 有 两 个 重要 约束 : 对 每 个 属性 
涉及 最 广 的 扩展 省 略 不 做 ， 同 样 计数 为 零 的 扩展 也 省 略 不 做 。 根 结 点 的 索引 为 0， 因 此 对 
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于 根 结 点 ， 所 有 属性 都 得 到 扩展 ， 但 同样 受 限 于 上 述 两 个 约束 。 














Humidity Windy Play Count 
high true yes 1 
high true no 2 
high false yes 2 
high false no 2 
normal true yes 2 
normal true no 1 
normal false yes 4 
normal false no 0 

a) 简化 的 版 本 


any value 
14 instances 
windy - true 
6 instances 
play = no 
3 instances 











humidity = normal play = no 
7 instances 5 instances 


play = no 
1 instance 






windy - true 
3 instances 
play = no 
1 instance 
b) 相应 的 AD 树 
图 6-21 天 气 数据 


例如 ， 图 6-21b 中 的 根 结 点 没有 对 windy = false HEATH JR, AAA 8 个 这 样 的 实例 ， 
是 涉及 最 广 的 扩展 : 数据 中 出 现 false 值 的 次 数 大 于 出 现 true 值 的 次 数 。 类 似 地 ， 结 点 hu- 
midity = normal 也 没有 对 windy = false 进行 扩展 ， 因 为 humidity = normal 的 所 有 实例 中 windy 

=false 值 是 最 为 普遍 的 。 实 际 上 ， 在 这 个 例子 中 的 第 二 条 限制 ， 即 计数 为 0 的 扩展 省 略 不 
做 不 会 用 到 ， 因 为 第 一 条 限制 已 经 排除 了 任何 以 humidity = normal 以 及 windy = false 为 开始 
的 测试 ， 而 这 正 是 图 6-21a 中 唯一 计数 为 0 的 情形 。 

树 的 每 个 结 点 代表 某 种 具体 属性 值 组 合 的 发 生 。 可 以 直接 从 树 中 获取 某 种 组 合 出 现 的 
计数 。 但 是 由 于 每 个 属性 最 普遍 的 扩展 都 被 省 略 ， 所 以 造成 许多 非 0 计数 不 能 在 树 中 显 式 
地 表现 出 来 。 例 如 ，humidity = high 和 play = yes 的 组 合 在 数据 中 出 现 了 3 次 ， 但 在 树 中 却 
没有 这 个 结 点 。 然 而 ， 结 论 是 任何 计数 都 可 以 由 显 式 地 存储 在 树 中 的 计数 计算 获得 。 

这 里 有 个 简单 的 例子 。 图 6-21b 中 没有 包含 humidity = normal, windy = true, play = yes 
的 结 点 。 但 是 ， 它 显示 了 3 个 humidity = normal 和 windy = true 的 实例 ， 其 中 有 1 个 实例 play 
的 属性 值 不 是 yes。 这 说 明 一 定 有 2 个 实例 play = yes。 现 在 来 看 一 个 更 为 巧妙 的 情况 : 
humidity = high, windy -true, play = no 出 现 多 少 次 ? 一 眼看 上 去 似乎 不 可 能 知道 答案 ， 因 为 
根本 就 没有 humidity = high 的 分 支 。 然 而 ， 我 们 可 以 用 windy = true 和 play = no 的 计数 (3) 
减 去 humidity = normal, windy =true, play =no 的 计数 (1) 得 出 。 从 而 得 出 正确 的 计数 2。 

这 个 方法 适用 于 任何 属性 分 支 以 及 任何 属性 值 组 合 ， 但 也 许 需 要 使 用 递归 。 例 如 ， 要 
得 到 humidity = high, windy = false, play = no 的 计数 ， 需 要 知道 windy = false 和 play = no 的 
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计数 以 及 humidity = normal, windy = false, play = no 的 计数 。 前 者 可 以 通过 从 play = no 的 
计数 (5) 中 减 去 windy = true 和 play = no 的 计数 (3) 而 获得 ， 结 果 是 2。 后 者 可 以 通过 
从 humidity = normal 和 play = no 的 计数 (1) 中 减 去 humidity = normal, windy = true, play = 
no 的 计数 (1) 而 获得 ， 结 果 为 0。 因此 正确 答案 一 定 是 有 2 -0 =2 个 实例 humidity = 
high, windy = false, play = no, 

只 有 当 数 据 含 有 数 千 个 实例 时 ， 才 能 显示 AD 树 的 价值 所 在 。 很 明显 ， 对 于 天 气 数 
据 ，AD 树 并 没有 多 大 作用 。 它 们 不 能 有 益 于 小 数据 集 的 事实 意味 着 ， 在 实践 中 树 结构 一 
直 向 下 扩展 到 叶子 结 点 是 没有 多 大 意义 的 。 通 常 可 以 应 用 一 个 截止 参数 k， 在 覆盖 实例 数 
ENF k 的 结 点 上 ,保留 指向 这 些 实例 的 指针 列表 ， 而 不 是 指向 下 其 他 结 点 的 指针 列表 。 

272] 从 而 使 树 结构 更 小 、 效 率 也 更 高 。 


6.7.5 讨论 


用 于 贝 叶 斯 网 络 学 习 的 K2 算法 是 由 Cooper 和 Herskovits (1992) 提出 的 。 贝 叶 斯 评 
分 度量 是 Heckerman 等 (1995) 提出 的 。TAN 算法 是 Friedman 等 (1997) 提出 的 ， 他 还 
对 复 网 进行 了 讨论 。Grossman 和 Domingos (2004) 提出 了 怎样 利用 条 件 似 然 为 网 络 进行 评 
分 。Guo 和 Greiner (2004) 对 贝 叶 斯 网 络 分 类 器 的 评分 度量 进行 了 广泛 的 比较 。Bouckaert 
(1995) 对 子 网 络 的 平均 进行 了 探讨 。 平 均 单 依赖 估计 器 是 Webb 等 (2005) 提出 的 。AD 
树 是 由 Moore fll Lee (1998) 提出 并 分 析 的 ， 在 4.7 PAAR kD 树 和 球 树 也 是 由 Andrew 
Moore 提出 的 。 在 近期 的 文献 中 ，Komarek 和 Moore (2000) 介绍 了 用 于 增 量 学 习 的 AD 
树 ， 这 种 树 对 于 包含 很 多 属性 的 数据 集 也 有 较 高 的 效率 。 

我 们 只 是 简单 地 介绍 贝 叶 斯 网 络 。 留 下 缺失 值 、 数 值 属 性 以 及 隐藏 属性 等 没有 讨论 ， 
也 没有 讲述 怎样 在 回归 任务 中 使 用 贝 叶 斯 网 络 。 贝 叶 斯 网 络 是 叫做 图 模型 ( graphical 
models) 的 一 类 广泛 的 统计 模型 中 的 一 个 特例 ， 图 模型 也 包括 无 向 边 的 网 络 ， 称 为 马尔 可 
夫 网 络 (Markov network) 。 近 年 来 ， 图 模型 引起 了 机 器 学 习 界 的 广泛 关注 。 


6.8 RŽ 


在 4. 8 TPR SRS k PH(EUR2SSEIE, CER SIAR TED I REP 
心 ， 所 有 的 数据 点 都 被 赋予 最 靠近 的 聚 类 中 心 ， 计 算 每 个 聚 类 中 数据 点 的 平均 值 作为 新 的 
聚 类 中 心 ， 如 此 不 断 重 复 直 至 聚 类 不 再 变化 。 这 个 过 程 只 有 当 事 先 知道 聚 类 数目 才 可 行 ， 
本 节 以 讨论 聚 类 数目 未 知 时 该 如 何 处 理 作为 开始 。 

接 下 来 ,我们 考察 一 种 用 于 创建 层次 聚 类 结构 的 技术 ， 它 是 通过 “凝结 ”来 实现 的 ， 
即 从 单个 实例 开始 ， 把 它们 联合 起 来 形成 聚 类 。 然 后 考察 一 种 增 量 的 方法 ， 即 当 新 实例 出 
现时 处 理 它 。 该 方法 是 在 20 世纪 80 年 代 末 期 创建 的 ,包含 在 Cobweb (用 于 名 目 属性 ) 
和 Classit ( 用 于 数值 属性 ) 两 个 系统 中 的 增 量 聚 类 方法 中 。 这 两 个 系统 都 对 实例 进行 层次 
化 的 分 组 ， 并 且 使 用 称 为 分 类 效用 (category utility) 的 聚 类 “质量 ”度量 。 最 后 ， 我 们 考 
察 一 种 统计 学 聚 类 方法 ， 它 是 基于 不 同 概率 分 布 的 一 种 混合 模型 ， 每 个 聚 类 有 一 个 概率 分 
布 。 它 不 像 夺 均值 那样 ， 明 确 地 将 实例 分 到 不 同 的 聚 类 中 ， 而 是 概率 性 地 为 实例 赋予 多 个 
类 别 。 我 们 将 要 解释 一 些 基 本 技术 ， 然 后 介绍 一 种 易于 理解 的 、 称 为 AutoClass HRAN 

[273] 案 是 如 何 工作 的 。 
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6.8.1 选择 聚 类 的 个 数 


假设 要 使 用 均值 法 ， 但 聚 类 的 个 数 未 知 。 一 种 解决 方法 是 对 不 同 的 可 能 个 数 进 行 试 
验 ， 看 看 哪个 最 好 。 简 单 的 方法 是 从 一 个 给 定 的 最 小 个 数 开始 ， 或 许 是 k=1， 然 后 一 直 试 
验 到 一 个 较 小 的 、 固 定 的 最 大 值 。 注 意 ， 在 训练 数据 上 根据 距离 平方 总 和 标准 得 到 的 “最 
佳 ” 聚 类 ,将 总 是 选择 与 数据 点 一 样 多 的 聚 类 ! 为 了 抑制 选择 很 多 聚 类 的 方案 ， 必 须 应 用 
在 5.9 节 中 所 述 的 MDL 准则 等 类 似 的 方法 。 

另 一 种 可 能 方法 是 开始 先 找 出 很 少 几 个 聚 类 ， 然 后 决定 是 否 值得 将 它们 分 裂 。 你 可 选择 
5=2， 执 行 上 均值 聚 类 直到 它 终 止 ， 然 后 考虑 分 裂 每 个 聚 类 。 如 果 最 初 考虑 的 二 分 聚 类 是 不 


能 取消 的 ， 并 且 每 个 部 分 的 分 裂 是 独立 考察 的 ， 那 么 计算 时 间 将 大 大 减少 。 分 裂 聚 类 的 一 种 . 


方法 是 在 变化 最 大 的 方向 、 距 离 聚 类 中 心 一 个 标准 差 的 位 置 产生 一 个 新 的 种 子 ， 随 后 在 反方 
向 、 等 距 建 立 第 二 个 种 子 〈 如 果 速 度 太 慢 ， 另 一 种 方法 是 在 任意 方向 ， 选 择 一 个 与 聚 类 边界 
范围 成 比例 的 距离 ) 。 然 后 运用 这 两 个 新 的 种 子 ， 对 聚 类 中 的 点 进行 大 均值 聚 类 。 

聚 类 分 裂 暂时 完成 ， 是 否 值得 保留 分 裂 ， 或 者 原来 的 聚 类 也 是 合理 的 ? 察看 所 有 点 离 
聚 类 中 心 距 离 的 平方 和 是 没有 用 的 ， 两 个 子 聚 类 的 和 一 定 是 较 小 的 。 应 该 为 创建 一 个 额外 
的 聚 类 引入 惩罚 ， 这 是 MDL 准则 的 作用 。 利 用 这 个 原理 察看 表示 两 个 新 聚 类 中 心 以 及 每 
个 点 与 它们 之 间 关 系 所 需 的 信息 ， 是 否 超过 表示 原先 的 聚 类 中 心 以 及 所 有 点 与 它们 之 间 关 
系 所 需要 的 信息 。 如 果 超 过 了 ， 那么 新 的 聚 类 是 徒劳 的 ， 将 被 放弃 。 如 果 分 裂 被 保留 下 
来 ， 试 着 对 每 个 新 的 聚 类 进一步 分 裂 。 这 个 过 程 一 直 继 续 直到 不 再 有 值得 保留 的 分 裂 。 

将 这 个 和 迭代 聚 类 过 程 和 4. 8 节 中 提出 的 ED 树 或 球 树 数据 结构 结合 起 来 ， 可 在 实现 过 
程 中 获得 额外 的 效率 。 然 后 ， 从 根 结 点 沿 着 树 一 直 向 下 到 达 数 据点 。 当 考虑 分 裂 一 个 聚 类 
时 ， 没 有 必要 考虑 整个 树 ， 只 需 考虑 要 履 盖 这 个 聚 类 所 需要 的 部 分 。 例 如 ， 当 决定 是 否 分 
AR 4-16a 左下 方 ( 粗 线 下 方 ) 的 聚 类 时 ， 只 需要 考虑 图 4-16b 中 的 树 结 点 A AB, AY 
结 点 C 与 这 个 聚 类 无 关 。 


6.8.2 层次 聚 类 


首先 形成 一 对 初始 聚 类 ， 然 后 递归 地 考虑 每 个 结 点 是 否 值得 分 裂 ， 这 会 得 到 一 个 层次 
结构 ， 该 层次 结构 可 以 用 一 种 叫做 树 状 图 (dendrogram) 的 二 又 树 表 示 。 实 际 上 ， 我 们 在 
图 3-11d 中 已 经 给 出 了 一 个 树 状 图 (其 中 有 些 分 支 是 三 叉 的 ) 。 也 可 以 用 集合 或 子 集 的 文 
氏 (Venn) 图 来 表示 同样 的 信息 : 层次 结构 对 应 于 子 集 间 可 以 相互 包含 但 不 能 相交 。 在 
某 些 情况 下 ， 集 合 中 的 聚 类 之 间 存 在 一 种 差异 性 的 度量 ; 树 状 图 中 每 个 结 点 的 高 度 可 以 与 
它们 子 结 点 之 间 的 差异 性 成 比例 。 这 为 层次 聚 类 提供 了 一 个 容易 解释 的 图 形 。 

替代 自 顶 向 下 形成 聚 类 层次 结构 的 方法 是 ， 使 用 叫做 凝聚 聚 类 (agglomerative cluste- 
ring) 的 自 底 向 上 的 方法 。 很 多 年 前 就 有 人 提出 了 这 个 想法 ， 但 最 近 它 又 流行 起 来 。 基 本 
的 算法 很 简单 。 你 只 需要 一 个 任意 两 个 聚 类 之 间距 离 的 度量 (如 果 有 一 个 相似 性 度量 ， 它 
可 以 很 容易 转换 成 一 个 距离 ) 。 首 先 ， 将 每 个 实例 看 做 一 个 聚 类 ， 然 后 找 出 两 个 最 近 的 聚 
类 ， 将 它们 合并 ， 继 续 直到 只 剩 下 一 个 聚 类 。 合 并 过 程 的 记录 会 形成 一 个 层次 聚 类 结构 ， 
即 一 个 二 又 树 状 图 。 

可 能 的 距离 度量 有 许多 种 。 一 种 是 聚 类 之 间 的 最 小 距离 ， 即 最 近 的 两 个 成 员 间 的 距离 。 
这 就 得 到 单 链接 (single-linkage) 聚 类 算法 。 由 于 该 度量 值 考 虑 了 两 个 聚 类 中 最 近 的 两 个 成 
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员 间 的 距离 ， 所 以 该 过 程 对 离 群 点 很 敏感 : 增加 单个 实例 就 能 完全 改变 整个 聚 类 结构 。 同 
样 ， 如 果 我 们 定义 聚 类 的 直径 作为 聚 类 成 员 之 间 的 最 大 距离 ， 单 链接 聚 类 就 会 产生 直径 非常 
大 的 聚 类 。 另 一 种 度量 是 聚 类 间 的 最 大 距离 ， 而 不 是 最 小 距离 。 只 有 两 个 聚 类 的 所 有 成 员 都 
相似 时 ， 才 认为 两 个 聚 类 的 距离 很 近 ， 有 时 也 称 为 完全 链接 (complete-linkage) 方法 。 这 种 
度量 也 对 离 群 点 敏感 ， 并 且 倾 向 于 寻找 紧凑 的 、 直 径 较 小 的 聚 类 。 然 而 ， 最 后 也 会 出 现 一 些 
实例 与 其 他 聚 类 的 距离 比 与 它 自己 所 在 聚 类 内 其 他 点 的 距离 近 很 多 的 情况 。 

还 有 很 多 其 他 的 距离 度量 ， 它 们 代表 了 聚 类 成 员 间 最 小 和 最 大 距离 的 一 种 折 中 。 一 种 
度量 与 均值 算法 类 似 ， 用 聚 类 成 员 的 中 心 来 代表 聚 类 ， 使 用 中 心 之 间 的 距离 ， 叫 做 中 心 
链接 (centroid-linkage) 方法 。 当 实例 位 于 欧 几 里 得 空间 时 ， 中 心 的 定义 很 明确 ， 该 方法 
效果 很 好 。 但 当 实例 之 间 只 有 成 对 的 相似 性 度量 时 ， 由 于 中 心 不 能 用 实例 表示 ， 它 们 之 间 
的 相似 性 不 能 定义 ， 所 以 该 方法 不 可 行 。 

另 一 种 避免 该 问题 的 度量 ， 是 计算 两 个 聚 类 每 对 成 员 之 间 的 平均 距离 ， 叫 做 平均 链接 
(average-linkage) 方法 。 这 看 起 来 似乎 要 做 大 量 运算 ， 但 既然 要 计算 所 有 成 对 成 员 的 距离 
来 找 出 最 大 和 最 小 距离 ， 那 么 对 它们 取 平 均值 也 不 会 带 来 额外 的 负担 。 这 些 度量 都 有 一 个 
技术 上 的 缺陷 : 它们 的 结果 依赖 于 距离 度量 的 数值 规模 。 最 小 和 最 大 距离 度量 得 到 的 结果 
只 依赖 于 距离 的 大 小 顺序 (ordering) 。 相 反 ， 对 所 有 的 距离 进行 单调 变换 ， 即 使 保持 它们 
的 相对 顺序 不 变 ， 基 于 中 心 的 和 平均 距离 的 聚 类 结果 也 会 改变 。 

另 一 种 叫做 组 平均 (group-average) 聚 类 的 方法 ， 它 使 用 合并 后 的 聚 类 中 所 有 成 员 间 
的 平均 距离 。 这 与 前 面 提 到 的 “平均 ”方法 不 同 ， 因 为 它 包 含 了 相同 原始 聚 类 的 平均 值 
对 。 最 后 ，Ward 聚 类 方法 计算 两 个 聚 类 合并 前 后 所 有 实例 距 聚 类 中 心 距 离 的 平方 和 的 增 
量 。 思 想 是 在 每 个 聚 类 步骤 中 ， 最 小 化 该 二 次 距离 的 增 量 。 . 

如 果 所 有 的 聚 类 都 是 紧凑 并 且 分 隔 良好 的 ， 那 么 所 有 这 些 度量 都 会 得 到 同样 的 层次 聚 
类 结果 。 和 否则 ， 它 们 会 得 到 相当 不 同 的 结构 。 


6.8.3 层次 聚 类 的 例子 


图 6-22 展示 了 凝聚 层次 育 类 的 结果 (这些 可 视 化 结果 是 由 FigTree 程序 ?生成 的 ) 。 这 个 
数据 集 包含 50 个 不 同 生物 种 类 的 实例 ， 从 海豚 到 猫 斋 ， 从 长 颈 鹿 到 龙虾 都 有 。 有 一 个 数值 
属性 〈 腿 的 数目 ， 从 0 ~6， 但 映射 到 了 [O, 1] 范围 内 ) 和 15 个 布尔 属性 ,例如 是 否 有 羽 
毛 、 是 否 下 和 蛋 以 及 是 否 有 毒 ， 在 计算 距离 时 这 些 属性 都 可 以 看 做 值 为 0 和 1 的 二 元 属性 。 

共有 两 种 显示 方式 : 一 种 是 标准 的 树 状 图 ， 一 种 是 极 坐标 图 。 图 6-22a 和 b 用 两 种 方式 展 
示 了 一 个 凝聚 聚 类 的 结果 ， 图 6-22c 和 d 用 同样 的 两 种 方式 展示 了 另 一 个 凝聚 聚 类 的 结果 。 不 
同 之 处 在 于 ， 图 6-22a 和 b 中 的 实例 对 是 使 用 完全 链接 度量 产生 的 ， 而 图 6-22c 和 d 中 的 实例 对 
是 使 用 单 链接 度量 产生 的 。 可 以 看 到 ， 完 全 链接 方法 倾向 于 产生 紧凑 的 聚 类 ， 而 单 链接 方法 在 
树 的 底层 会 产生 直径 很 大 的 聚 类 。 在 所 有 4 个 可 视 化 结果 中 ， 树 状 图 中 每 个 结 点 的 高 度 是 与 它 
们 子 结 点 的 差异 性 成 比例 的 ， 该 差异 性 用 实例 间 的 欧式 距离 度量 。 图 6-22a 和 < 的 下 方 提供 了 
一 个 数值 刻度 。 图 6-22a 和 b 中 的 完全 链接 方法 与 图 6-22c 和 d 中 的 单 链接 方法 相 比 ， 从 根 结 点 
到 叶子 结 点 总 的 差异 性 要 大 很 多 ， 这 是 由 于 前 者 使 用 的 是 每 个 聚 类 实例 间 的 最 大 距离 ， 而 后 者 
使 用 的 是 最 小 距离 。 第 一 种 情况 下 ， 总 的 差异 性 略 小 于 3.75， 这 几乎 就 是 实例 间 最 大 的 可 能 距 
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离 〈 两 个 有 15 个 属性 的 实例 ， 其 中 14 个 属性 是 不 同 的 ， 


这 两 个 实例 之 间 的 距离 是 V14=~ 


3.74) 。 第 二 种 情况 下 ， 总 的 差异 性 略 大 于 2 (BIA), ， 这 是 4 个 布尔 属性 不 同时 计算 得 到 的 结果 。 
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对 于 完全 链接 方法 (JILE 
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图 6-22 (9X) 


6-22a) ， 在 差异 性 为 1 时 许多 元 素 连 在 一 起 ， 这 相当 于 只 有 
一 个 布尔 属性 不 同 。 只 有 一 个 实例 的 差异 性 较 小 : crab 和 crayfish 只 有 腿 的 数目 不 同 (在 
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映射 之 后 ,分别 是 4/6 和 6/6)。 其 他 经 常 出 现 的 差异 性 的 值 如 /2、Y3、v4 等 ,分 别 相应 于 
2 个 、3 个 、4 个 布尔 属性 值 不 同 的 情况 。 对 于 使 用 聚 类 间 最 小 距离 的 单 链接 方法 CL 
图 6-22c) ， 在 差异 性 为 1 时 连 在 一 起 的 元 素 就 更 多 了 。 

标准 树 状 图 和 极 坐标 图 ， 这 两 种 显示 方法 哪 种 更 有 用 ， 这 是 个 人 喜好 问题 。 尽 管 可 能 
开始 时 对 极 坐标 图 不 是 很 熟悉 ， 但 它 将 可 视 化 结果 展开 ， 能 更 平均 地 利用 整个 可 用 空间 。 


6.8.4 增 量 聚 类 


均值 算法 对 整个 数据 集 进行 迭代 运算 直至 收敛 ， 层 次 聚 类 方法 会 在 合并 阶段 检查 目前 
所 有 的 聚 类 ， 而 下 面 我 们 将 要 考察 的 聚 类 方法 则 是 一 个 实例 接 一 个 实例 增 量 工作 。 在 任何 阶 
段 ， 聚 类 都 形成 一 棵 ， 树 的 叶子 结 点 是 实例 ， 根 结 点 则 代表 整个 数据 集 。 开 始 时 树 只 有 一 个 
根 结 点 。 实 例 一 个 个 加 进来 ， 树 则 在 每 个 阶段 进行 适当 的 更 新 。 更 新 也 许 只 是 寻找 恰当 的 位 
置 来 放置 代表 新 实例 的 叶子 结 点 ， 或 者 彻底 重建 受到 新 实例 影响 的 部 分 树 。 决 定 怎样 更 新 以 
及 在 哪里 更 新 的 关键 是 一 个 称 为 分 类 效用 (category utility) 的 量 ， 它 度量 将 实例 集 划 分 成 聚 
类 的 总 体质 量 。 将 在 下 一 节 中 详细 讨论 它 是 怎样 定义 的 。 先 来 看 看 聚 类 算法 是 如 何 工作 的 。 

这 个 过 程 最 好 用 一 个 例子 来 说 明 。 再 次 使 用 大 家 熟悉 的 天 气 数据 ， 但 不 包括 属性 play。 
为 了 便于 跟踪 程序 ，14 个 实例 分 别 被 标 为 a，b，c，…，n ( 见 表 4-6) 。 出 于 兴趣 ， 我 们 包 
含 了 类 标 yes 或 no， 尽 管 必 须 强 调 对 于 这 个 人 造 数 据 集 来 说 ， 假 设 实例 的 两 个 类 必须 是 两 个 完 
全 分 隔 的 类 别 范畴 几乎 是 没有 什么 意义 的 。 图 6-23 展示 了 聚 类 过 程 中 出 现 的 一 些 重要 情形 。 


a) b) 





图 6-23 ”对 天 气 数据 的 聚 类 
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开始 时 ， 当 新 的 实例 被 纳入 结构 中 时 ， 它 们 各 自 形成 顶层 总 聚 类 下 的 子 聚 类 。 每 个 新 
实例 都 被 试探 着 放 人 现 有 的 叶子 结 点 ， 然 后 对 顶层 结 点 的 子 结 点 集 进行 分 类 效用 评估 ， 看 
看 这 个 叶子 结 点 是 否 是 新 实例 的 一 个 好 的 “宿主 ”。 对 前 5 个 实例 来 说 ， 没 有 这 样 的 宿主 : 
根据 分 类 效用 ， 最 好 让 每 个 实例 形成 一 个 新 的 叶子 结 点 。 第 6 个 实例 终于 可 以 形成 一 个 聚 
类 了 ， 将 新 实例 { 和 旧 实 例 〈 即 宿主 ) e 结合 在 一 起 。 再 回 过 头 来 看 看 表 4-6， 你 将 发 现 第 
5 个 和 第 6 个 实例 的 确 非 常 相 似 ， 只 有 windy 属性 值 不 同 (这 里 忽略 的 play 属性 值 不 同 ) 。 
接 下 来 实例 g 被 置 人 同一 个 聚 类 中 (CAL 比较 ， 只 是 outlook 属性 值 不 同 ) 。 这 涉及 再 次 
调用 聚 类 过 程 。 首 先 ， 对 g 进行 评估 ， 看 看 根 结 点 的 5 个 子 结 点 中 哪个 能 成 为 最 佳 宿主 ， 
结果 是 已 经 成 为 聚 类 的 最 右边 的 那个 子 结 点 。 然 后 运用 聚 类 算法 将 这 个 结 点 作为 根 结 点 ， 
对 它 的 两 个 子 结 点 进行 评估 ， 看 看 哪个 是 较 好 的 宿主 。 在 这 个 例子 中 ， 根 据 分 类 效用 度 
量 ， 将 新 实例 自己 作为 一 个 子 聚 类 是 最 好 的 。 . 

如 果 按 这 样 的 方法 继续 下 去 ， 不 会 有 从 根本 上 重建 树 的 机 会 ， 那 么 最 终 的 聚 类 结果 会 
过 度 依 赖 于 实例 的 顺序 。 为 了 避免 这 点 ， 需 要 有 一 些 重建 的 规则 ， 在 图 6-23e 中 展示 的 下 
一 步 中 ， 当 实例 h 加 入 进来 时 ， 你 就 能 看 到 这 点 。 这 时 ， 两 个 现存 的 结 点 合并 成 一 个 聚 
类 : 在 新 实例 h 添加 进来 前 ， 节 点 a 和 d 合并 。 一 种 实现 的 方法 是 考虑 所 有 成 对 结 点 的 合 
并 ,评估 每 对 的 分 类 效用 。 然 而 ， 这 样 做 计算 量 很 大 ， 如 果 在 每 个 新 实例 添加 时 都 运行 ， 
就 会 带 来 许多 重复 工作 。 

不 用 上 面 的 方法 ， 还 有 另 一 种 方法 就 是 当 为 寻找 合适 的 宿主 而 对 某 层 的 结 点 进行 扫描 
时 ， 同 时 记录 最 适合 的 结 点 〈 能 对 这 层 的 分 裂 产生 最 大 分 类 效用 的 结 点 ) 和 第 二 适合 的 结 
点 。 最 好 的 那个 作为 新 实例 的 宿主 〈 除 非 新 实例 自身 作为 一 个 聚 类 会 更 好 ) 。 但 在 将 新 实 
例 加 入 宿主 前 ， 先 考虑 将 宿主 和 第 二 适合 结 点 的 合并 。 在 本 例 中 ，a 是 首选 宿主 而 d 是 第 
二 适合 节点 。 对 a Ald 的 合并 进行 评估 ， 结 果 是 合并 可 以 提高 分 类 效用 。 因 此 将 这 两 个 结 
点 合并 ,产生 bh 加 入 之 前 的 图 6-23 中 的 第 5 个 层次 结构 。 然 后 ， 考 虑 将 h 放置 在 新 的 经 合 
并 的 结 点 ， 最 好 的 结果 是 如 图 6-23 所 示 将 它 自己 作为 一 个 子 聚 类 。 

与 合并 相反 的 操作 称 为 分 裂 (splitting) ， 也 实现 了 。 当 识别 出 最 好 的 宿主 ， 而 合并 又 
证 明 是 无 益 的 时 ， 就 考虑 对 宿主 结 点 的 分 裂 。 分 裂 的 效果 正好 与 合并 相反 ， 用 结 点 的 子 结 
点 来 替代 该 结 点 。 例 如 ， 要 分 裂 图 6-23d 中 最 右 侧 的 结 点 ， 就 将 叶子 结 点 e、f 和 g 提升 一 
层 ， 使 它们 与 a、b、e Ald 成 为 兄弟 结 点 。 合 并 和 分 裂 为 弥补 由 于 不 适当 的 实例 次 序 所 引 
起 的 错误 选择 ， 提 供 了 一 种 增 量 重建 树 的 方法 。 

14 个 实例 最 终 的 层次 结构 如 图 6-23f 所 示 。 有 两 个 主要 的 聚 类 ， 每 个 聚 类 下 面 还 有 子 聚 
类 。 如 果 play/don't play 两 种 特性 确实 代表 了 数据 的 内 在 特征 ， 那 么 期 望 的 结果 是 每 种 各 有 
一 个 聚 类 。 从 图 6-23 中 看 不 出 这 样 清晰 的 结构 ， 只 能 GEW) 粗略 地 辨别 出 来 ， 在 树 的 底 
层 标 有 yes 的 实例 有 聚集 在 一 起 的 趋势 ， 同 样 的 标 有 no 的 实例 也 有 涌 集 在 一 起 的 趋势 。 

对 数值 属性 可 采用 完全 相同 的 方法 。 基 于 对 属性 的 平均 值 和 标准 差 的 估计 ， 对 数值 属性 
同样 可 以 定义 分 类 效用 。 详 细 内 容 在 下 一 节 中 论述 。 然 而 ， 有 一 个 问题 必须 在 这 里 提出 : 当 
估计 某 个 结 点 的 某 个 属性 的 标准 差 时 ， 如 果 这 个 结 点 只 包含 一 个 实例 ， 结 果 为 0， 只 含 一 个 
实例 的 情况 是 比较 常 出 现 的 。 不 幸 的 是 ， 零 方差 在 分 类 效用 公式 里 会 产生 无 穷 大 。 一 个 简单 的 
启发 式 解 决 方案 是 给 每 个 属性 强加 一 个 最 小 方差 。 由 于 没有 绝对 精确 的 测量 ， 所 以 强加 这 样 一 
个 最 小 值 还 是 合理 的 : 它 代表 了 对 一 个 样本 的 测量 误差 。 这 个 参数 称 为 敏锐 度 (acuity ) 。 

图 6-24a 展示 了 对 部 分 蕊 尾 花 数据 集 (30 个 实例 ， 每 个 类 各 有 10 个 实例 ) 采用 增 量 
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算法 得 到 的 层次 聚 类 结果 。 在 顶层 有 两 个 聚 类 〈 即 代表 整个 数据 集 的 结 点 的 子 聚 类 ) 。 第 
一 个 包括 Iris virginicas 和 Iris versicolors ， 第 二 个 只 包含 Tris setosas。 Iris setosas 本 身 又 分 裂 
成 两 个 子 聚 类 ， 其 中 一 个 含 4 个 品种 而 另 一 个 含 6 个 。 另 一 个 顶层 聚 类 分 裂 成 3 个 子 聚 
类 ， 每 个 都 含有 相当 复杂 的 结构 。 第 一 、 二 个 都 只 包含 Iris versicolors ， 有 一 个 例外 ， 即 每 
个 都 含有 一 个 离 群 的 Iris virginica; 第 三 个 子 聚 类 只 包含 Iris virginicas, XW ES ERE 
相当 令 人 满意 的 聚 类 结果 : 它 显 示 了 这 3 个 品种 并 不 是 人 为 的 ， 而 是 反映 在 数据 上 存在 真 
实 的 差异 。 但 这 还 是 一 个 有 点 过 于 乐观 的 结论 ， 因 为 为 得 到 这 个 适当 的 分 类 ， 必 须 对 敏锐 
度 参 数 的 设 定做 相当 多 的 实验 。 

用 此 方案 聚 类 ， 使 每 个 实例 产生 一 个 叶子 结 点 。 这 使 得 正常 大 小 的 数据 集 不 可 避免 
地 会 形成 一 个 很 大 的 层次 结构 ， 从 某 种 意义 上 相当 于 对 数据 集 的 过 度 拟 合 。 因 此 第 二 个 
数值 参数 称 为 截止 (cutoff). 参数 ， 用 来 限制 结构 增长 。 某 些 被 断定 为 与 其 他 实例 足够 
相似 的 实例 则 不 准 有 它们 自己 的 子 结 点 ， 这 个 参数 就 是 用 来 控制 相似 度 阔 值 。 截 止 是 根 
据 分 类 效用 来 确定 的 ， 当 加 入 一 个 新 结 点 所 带 来 的 分 类 效用 的 增加 足够 小 时 ， 就 将 这 个 
结 点 截 掉 。 

图 6-24b 展示 的 同样 是 葛 尾 花 数据 ,但 聚 类 应 用 了 截止 参数 。 许 多 叶子 结 点 含 多 个 实 
Bil: 它们 的 父 结 点 被 截 掉 了 。 由 于 一 些 细节 被 抑制 了 ， 所 以 3 种 芒 尾 花 的 划分 从 这 个 结构 
图 中 就 比较 容易 看 出 来 了 。 同 样 ， 为 得 到 这 个 聚 类 结果 ， 必 须 对 截止 参数 的 设 定做 一 些 实 
验 ， 而 且 事实 上 更 加 强烈 的 截止 ， 将 导致 更 差 的 聚 类 结果 。 

如 果 使 用 含有 150 个 实例 的 完整 营 尾 花 数 据 集 ， 得 到 的 聚 类 结果 是 相似 的 。 但 是 ， 聚 
类 结果 还 是 有 赖 于 实例 的 次 序 图 6-24 是 变更 了 输入 文件 的 3 种 音 尾 花 的 次 序 所 得 到 的 
结果 。 如 果 所 有 的 Ins setosas 最 先 出 现 ， 接 着 是 所 有 的 Iris versicolors 和 所 有 的 Iris 
virginicas ， 最 终 的 聚 类 结果 则 是 相当 差 的 。 
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6.8.5 分 类 效用 


现在 来 看 看 怎样 计算 分 类 效用 ， 它 度量 将 实例 集 分 隔 成 聚 类 的 总 体质 量 。 在 5.9 
节 ， 我 们 从 理论 上 学 习 了 怎样 应 用 最 短 描 述 长 度 原理 来 度量 聚 类 的 质量 。 分 类 效用 不 
是 以 MDL 为 基础 的 ， 而 是 一 个 类 似 于 定义 在 条 件 概率 上 的 二 次 损失 函数 。 

分 类 效用 的 定义 看 起 来 是 相当 令 人 慌 怖 的 : 

> Pr[Ce] E > (Pr[a = v; |C]? -Pr[o = vy] ) 
CU(C,,C,,--,€,) = 一 一 ^ 
这 里 C1 C, +, CL 是 上 个 聚 类 ; 外 层 的 求 和 是 针对 这 些 聚 类 的 ; 接 下 来 的 那个 内 层 
求 和 是 针对 属性 的 ; a; 代表 第 i 个 属性 ， 它 的 值 有 vi ，vs，…，v;， 一 共 要 处 理 j 个 。 
注意 概率 本 身 是 对 所 有 实例 求 和 得 到 的 : 因此 还 要 内 含 一 层 求 和 。 

如 果 多 花 点 时 间 分 析 这 个 表达 式 ， 就 能 深入 理解 它 的 意义 。 聚 类 的 意义 在 于 它 有 
利于 更 好 预测 聚 类 中 实例 的 属性 值 ， 即 对 于 聚 类 C, 中 的 某 个 实例 ， 属 性 o; LIS 0, 8) 
概率 是 Pr[ a; =v; | C,], ， 相 对 于 概率 Pr[a; 2v,] 来 说 ， 是 一 个 更 好 的 估计 ， 因 为 它 考 
虑 实例 所 在 的 聚 类 。 如 果 该 信息 不 起 作用 ， 则 说 明 聚 类 并 不 理想 。 因 此 上 述 表 达 式 内 
部 多 个 求 和 操作 所 计算 的 就 是 这 个 信息 的 作用 ， 它 是 根据 这 两 个 概率 平方 差 来 度量 的 。 
这 并 不 是 非常 标准 的 二 次 差分 度量 方法 ， 因 为 二 次 差分 是 所 有 差 值 的 平方 和 (能 产生 
对 称 结果 ) ， 而 现在 的 计算 是 总 和 平方 的 差 值 (虽然 适合 但 不 是 对 称 的) 。 里 面 的 两 层 
求 和 符号 对 所 有 属性 、 所 有 可 能 属性 值 的 概率 平方 差 进行 求 和 计算 。 然 后 外 面 的 那个 
求 和 符号 是 针对 所 有 的 聚 类 ， 利 用 它们 各 自 的 概率 进行 加 权 ， 进 行 求 和 计算 。 

最 后 总 数 除 以 有 点 难以 说 明理 由 ， 因 为 已 经 对 所 有 类 的 平方 差 求 和 。 分 类 效用 
提供 “每 个 聚 类 ”的 特征 来 阻止 过 度 拟 合 。 否 则 ， 由 于 概率 是 累计 所 有 适当 的 实例 获 
得 的 ， 如 果 每 个 实例 单独 作为 一 个 聚 类 ， 分 类 效用 将 是 最 好 的 。 对 属性 a 来 说 ， 当 属 
性 值 为 聚 类 中 单个 实例 实际 的 a; 属性 值 时 ，Pr[ a, 2v;1 C] 为 1， 而 对 于 其 他 属性 值 
这 个 概率 都 为 0。 分 类 效用 计算 公式 的 分 子 最 终 变 为 

m 一 >, > Prl a, = vi]. 


这 里 m 是 属性 的 总 个 数 。 这 是 分 子 所 能 达到 的 最 大 值 。 如 果 在 分 类 效用 计算 公式 中 不 
除 以 大， 就 没有 理由 生成 含有 一 个 以 上 成 员 的 聚 类 。 把 这 个 额外 的 系数 看 成 基本 的 避免 
过 度 拟 合 的 措施 是 最 好 的 了 。 

这 个 分 类 效用 公式 只 适合 于 名 目 属 性 。 然 而 ， 假 设 属性 是 正 态 分 布 的 ， 给 出 OU 
察 所 得 ) 平均 值 m 和 标准 差 s， 很 容易 将 其 扩展 应 用 于 数值 属性 。 属 性 a 的 概率 密度 
函数 为 








zi - (a - p)? 
Ka) =- (>) 
属性 值 概率 的 平方 求 和 计算 可 类 推 为 





2 2 1 
tla, = v.| €|f(a;) da, = 
X, Pra, yj)’ [fla,)*da, EM 
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这 里 oc, 是 属性 a, 的 标准 差 。 因 此 对 数值 属性 ， 我 们 从 数据 中 来 估计 标准 差 ， 所 用 的 数 
据 既 包含 某 个 聚 类 中 的 数据 (o4) 又 包含 所 有 聚 类 中 的 数据 (co;, ) ， 将 这 些 运用 到 分 
类 效用 公式 中 得 到 : 
QU G, Ou) = X Pi Cy] Ie (= | 
现在 ， 前 面 提 到 的 当 标 准 差 估计 为 0 时 出 现 的 问题 便 能 看 得 更 清楚 了 : 零 标准 差 
使 分 类 效用 计算 结果 为 无 穷 大 。 为 每 个 属性 强制 加 上 一 个 最 小 方差 ， 即 敏锐 度 ， 是 一 
个 粗糙 的 问题 解决 方法 。 














6.8.6 基于 概率 的 聚 类 


上 述 启发 式 聚 类 的 某 些 缺 点 已 经 很 明显 了 : 分 类 效用 公式 中 为 避免 过 度 拟 合 必须 选择 
除数 上 ， 需 要 提供 一 个 人 为 的 聚 类 标准 差 最 小 值 ， 以 及 为 避免 每 个 实例 成 为 一 个 聚 类 的 特 
定 的 截止 值 。 另 外 ， 还 有 增 量 算法 本 身 所 带 来 的 不 确定 性 。 结 果 在 多 大 程度 上 依赖 于 实例 
的 顺序 ? 合并 、 分 裂 等 局 部 重建 操作 是 否 足 以 扭转 由 不 好 的 实例 次 序 所 带 来 的 糟糕 的 初始 
决定 ?最 终结 果 是 否 代 表 分 类 效用 的 局 部 最 大 值 ? 无 法 知道 最 终 的 结果 离 全 局 最 大 值 到 底 
有 多 远 ， 并 且 重 复 几 次 聚 类 过 程 然 后 选择 最 好 的 这 种 标准 技巧 会 损害 这 个 算法 的 增 量 特 
性 。 最 后 ， 结 果 的 层次 性 也 不 能 回避 哪个 是 最 好 的 聚 类 这 个 问题 。 图 6-24 中 的 聚 类 有 那 
么 多 ， 就 像 要 从 糠 中 第 出 小 麦 那么 困难 。 

一 个 更 为 理论 性 的 统计 学 方法 可 以 克服 聚 类 问题 的 部 分 上 述 缺 点 。 从 概率 的 角度 看 ， 
聚 类 的 目标 是 寻找 给 定数 据 的 最 有 可 能 的 集合 〈 不 可 避免 地 要 用 到 先 验 期 望 值 ) 。 由 于 任 
何 有 限 数量 的 证 据 都 不 足以 对 某 件 事 做 完全 肯定 的 结论 ， 所 以 实例 甚至 是 训练 实例 也 不 能 
绝对 地 被 分 在 这 个 聚 类 或 那个 聚 类 : 而 应 当 说 实例 都 以 一 定 的 可 能 性 分 属于 每 个 聚 类 。 这 
有 助 于 消除 那些 硬性 而 快速 的 判断 方案 引发 的 脆弱 性 。 

统计 聚 类 的 基础 是 建立 在 一 个 称 为 有 限 混 合 (finite mixtures) 的 统计 模型 上 。 混 合 是 
指 用 上 个 概率 分 布 代表 上 个 聚 类 ， 控 制 聚 类 成 员 的 属性 值 。 换 句 话 说， 对 某 个 具体 实例 ， 
每 个 分 布 给 出 假设 已 知 实例 属于 这 个 聚 类 ， 并 且 它 有 某 组 属性 值 集 合 的 概率 。 每 个 聚 类 都 
有 不 同 的 分 布 。 任 何 具体 实例 “实际 上 ”属于 且 只 属于 一 个 聚 类 ， 但 不 知 是 哪个 。 最 后 ， 
各 个 聚 类 并 不 是 同等 可 能 的 : 存在 某 种 反映 它们 相对 总 体 数量 的 概率 分 布 。 

最 简单 的 有 限 混合 情况 是 只 有 一 个 数值 属性 ， 每 个 聚 类 是 呈 高 斯 或 正 态 分 布 ， 但 有 不 
同 的 平均 值 和 方差 。 聚 类 问题 是 获得 一 系列 
的 实例 ， 这 时 每 个 实例 只 是 一 个 数字 和 一 个 
事先 设 定 的 聚 类 数目 ， 然 后 计算 每 个 聚 类 的 





平均 值 和 方差 ， 以 及 聚 类 之 间 的 总 体 分 布 。 i 

混合 模型 将 几 个 正 态 分 布 组 合 起 来 ， 它 的 概 

率 密度 函数 看 起 来 像 一 组 山脉 ， 每 座 山峰 代 

表 一 个 正太 分 布 。 30 40 50 60 70 
图 6-25 展示 了 一 个 简单 的 例子 。 图 6-25 图 6-25 一 个 二 类 混合 模型 


中 有 两 个 聚 类 4 和 B， 每 个 都 呈正 态 分 布 ， 案 类 A 的 平均 值 和 标准 差 是 ww Mo RAB 
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的 平均 值 和 方差 是 ws 和 xs。 从 这 些 分 布 中 抽样 ， 聚 类 4 的 抽样 概率 为 mm ， 聚 类 B 的 抽样 
概率 为 pp (EP pi +p, =1) ， 得 到 如 图 6-25 所 列 的 数据 集 。 现 在 ， 想 象 所 给 的 数据 集 没 
有 类 值 ， 只 有 数据 ， 要 求 确定 模型 的 5 个 参数 : uu. 04. Mey Ce Fl p, (X ps 可 以 直接 
从 p, 计算 得 到 ) 。 这 就 是 有 限 混合 问题 。 


如 果 知 道 每 个 实例 是 由 哪个 分 布 而 来 的 ， 就 很 容易 找到 5 个 参数 值 ， 只 要 使 用 下 
面 的 公式 ， 分 别 对 聚 类 4 M B 的 两 个 样本 估计 平均 值 及 标准 差 。 


Xi Xy + b x, 








n 


AN (x, -u) + (% -u) +- (x, -n) 
n-1 
(第 二 个 公式 分 母 用 n-1 MAN n 是 一 种 抽样 技术 : 在 实践 中 如 用 几乎 没有 什么 差 
3|.) 这 里 x,，x,，…， x, 是 取 自 分 布 4 或 B 的 样本 。 要 估计 第 5 个 参数 ps， 只 需 计算 
聚 类 A 所 含 实例 数 占 实例 总 数 的 比例 。 
如 果 5 个 参数 已 知 ， 要 找 出 某 个 给 定 实例 来 自 每 种 分 布 的 概率 就 很 简单 了 。 给 定 
实例 *， 它 属于 聚 类 A 的 概率 是 


Pr[A |a] = Pel 





g 


x |A] x Pr[A] fna Oa) Ps 

Pr[ x | Pr[ x | 
XE, f(x; u,, 01) 是 聚 类 4 的 正 态 分 布 函数 ， 即 

Emo 

分 母 Pr[x] 将 消失 : 计算 分 子 Pr[4 |x] 和 Pr[B |x]， 然 后 要 除 以 两 者 之 和 进行 规 
范 化 。 整 个 过 程 与 4. 2 节 中 朴素 贝 叶 斯 学 习 方案 对 数值 属性 所 用 的 处 理 方法 相同 。 那 里 
讨论 中 所 做 的 说 明 这 里 也 同样 适用 : 严格 地 说 , f(x; ua, on) 并 不 是 概率 Pr[x | A], 
因为 x 等 于 任何 具体 实数 值 的 概率 为 零 ， 然 而 规范 化 过 程 使 得 最 终 的 结果 是 正确 的 。 
注意 最 终结 果 不 是 某 个 具体 的 聚 类 ， 而 是 * APRA 4 MRA B 的 概率 。 








f(x;u,o) = 











6.8.7 EM 算法 





问题 是 既 不 知道 每 个 训练 实例 来 自 哪个 分 布 ， 也 不 知道 混合 模型 的 5 个 参数 值 。 因 此 ， 


我 们 借鉴 下 均值 聚 类 算法 的 过 程 ， 进 行 迭 代 。 从 对 5 个 参数 值 进行 初始 估计 开始 ， 用 初始 估 


计 值 对 每 个 实例 进行 聚 类 概率 计算 ， 用 这 些 概率 对 参数 进行 重新 估计 ， 然 后 重复 此 过 程 (如 
果 愿 意 ， 也 可 以 从 对 每 个 实例 的 类 进行 初始 估计 开始 ) 。 这 种 方法 称 为 期 望 最 大 化 ( Expecta- 
tion Maximization, EM) 算法 。 第 一 步 ， 计 算 聚 类 概率 〈 即 “期 望 的 ”类 值 ) ， 这 便 是 “期 
望 ”; 第 二 步 ， 计 算 分 布 参数 ， 即 对 给 定数 据 的 分 布 进行 似 然 “ 最 大 化 ”处 理 。 


考虑 到 已 知 的 只 是 每 个 实例 所 属 聚 类 的 概率 而 非 聚 类 本 身 ， 因 此 必须 对 参数 估计 
公式 稍 做 一 点 调整 。 这 些 概率 作用 就 像 是 权 值 。 如 果 w; 是 实例 ; 属于 聚 类 4 的 概率 ， 
那么 聚 类 4 的 平均 值 和 标准 差 是 
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WX, + WX + "+ WN, 





Mw +w, +e +w, 


ie w(x; =u)? *w,(x, =u) += +, (4, =p)? 

~ w, +w, cR, 
这 里 x; 不 单 是 属于 聚 类 4 的 实例 ， 而 是 包括 所 有 的 实例 (这 和 前 面 的 标准 差 估计 公式 
有 些 不 同 : 如 果 所 有 的 权 值 都 是 相等 的 ， 那 么 分 母 是 而 不 是 n -1。 从 技术 上 讲 ， 这 
是 一 个 方差 的 “最 大 似 然 ” 估 计 器 ， 前 面 所 列 的 是 一 个 “无 偏 ” 估 计 器 。 它 们 之 间 的 
差别 在 实践 中 并 不 重要 ) 。 

现在 来 考虑 怎样 终止 迭代 。 左 均 值 算法 是 当 实例 的 类 值 在 下 一 轮 循环 中 没有 变化 时 
终止 ， 即 达到 一 个 “固定 点 ” 。 在 EM 算法 中 ， 情 况 并 非 如 此 简单 : 算法 会 向 某 个 固定 
点 收敛 但 是 却 不 能 真正 达到 这 个 点 。 然 而 可 以 通过 给 定 5 个 参数 值 来 计算 数据 集 数 据 
的 总 体 似 然 ， 找 出 它 的 靠近 程度 。 总 体 似 然 是 将 单个 实例 ; 的 概率 相 乘 得 到 的 : 
II (p,Pr[x; | A] + p;Pr[ x, | B]) 


这 里 聚 类 A ARS B 的 概率 是 由 正 态 分 布 函 数 f(x; u, o) 决定 的 。 这 个 总 体 似 然 是 
对 聚 类 “良好 性 ”的 一 种 度量 ， 在 EM 的 每 次 迭代 中 不 断 增 加 。 

这 里 又 出 现 了 将 x 的 某 个 具体 取 值 的 概率 等 同 于 f(x; u, o) 的 技术 难题 ， 由 于 
没有 对 概率 进行 规范 化 操作 ， 这 个 影响 并 没有 消失 。 结 果 是 上 面 的 似 然 表 达 式 代表 的 
不 是 概率 ,不 一 定 在 0 ~1 之 间 。 然 而 ， 它 的 大 小 仍然 反映 了 聚 类 质量 的 好 坏 。 在 算法 
具体 实现 中 一 般 取 它 的 对 数 : 只 需 计算 每 个 组 成 部 分 的 对 数 总 和 ， 避 免 了 相 乘 的 计算 。 
总 体 结论 还 是 保持 不 变 ， 逐 次 迭代 直到 对 数 似 然 的 增加 可 忽略 不 计 。 例 如 ， 在 一 个 具 
体 的 实现 中 ， 可 以 逐次 欠 代 直至 出 现 连续 10 次 迭代 前 后 两 个 对 数 似 然 的 差 值 小 于 
107^, 一 般 来 说 ， 前 面 几 轮 迄 代 的 对 数 似 然 会 急剧 上 升 ， 然 后 快速 收敛 于 某 个 几乎 是 
固定 的 点 。 

虽然 EM 算法 能 保证 收敛 于 某 个 极 大 值 ， 但 也 许 只 是 局 部 极 大 值 而 不 是 全 局 最 大 
值 。 为 了 能 有 机 会 得 到 全 局 最 大 值 ， 整 个 过 程 必须 重复 多 次 使 用 不 同 的 初始 估计 参数 
值 。 可 以 用 总 体 对 数 似 然 数值 来 比较 不 同 的 参数 配置 : 只 选择 其 中 最 大 的 。 














6.8.8 扩展 混合 模型 


我 们 已 经 看 了 含 两 个 高 斯 分 布 的 混合 模型 ， 现 在 来 考虑 怎样 将 其 扩展 到 更 现实 的 情况 
中 。 基 本 方法 是 相同 的 ， 但 由 于 数学 表达 更 令 人 慌 怖 ， 这 里 就 不 全 面 展开 了 。 

只 要 正 态 分 布 数量 事先 已 知 ， 将 适用 于 二 类 问题 的 算法 转换 为 适合 解决 多 类 问题 是 
非常 简单 的 。 只 要 假设 属性 之 间 是 独立 的 ， 适合 于 单个 数值 属性 实例 的 模型 可 以 扩展 为 适 
合 于 多 个 数值 属性 实例 的 模型 。 就 像 朴素 贝 叶 斯 方法 那样 ， 将 每 个 属性 的 概率 相 乘 得 到 这 
个 实例 的 联合 概率 。 

当 已 知 数据 集 含 有 相关 属性 时 ， 独 立 假设 就 不 再 成 立 。 此 时 ， 两 个 属性 可 用 2 维 正 态 
分 布 建立 联合 模型 ， 每 个 分 布 有 各 自 的 平均 值 ， 但 采用 含 4 个 数值 参数 的 “ 协 方差 矩阵 ” 
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来 代替 两 个 标准 差 。 有 标准 的 统计 技术 用 于 估计 实例 的 类 概率 ， 以 及 已 知 实例 和 类 概率 时 
估计 平均 值 和 协 方差 矩阵 。 对 多 个 相关 属性 ， 可 以 使 用 多 维 分 布 来 处 理 。 参 数 的 数量 随 着 
联合 属性 数量 的 平方 而 增加 。 对 于 个 独立 属性 ， 有 2n 个 参数 ， 各 含 一 个 平均 值 和 一 个 
标准 差 。 对 于 个 协 变 属 性 ， 有 n+n(n+1)/2 个 参数 ， 各 含 一 个 平均 值 和 一 个 nxn Br 
差 和 矩阵， 这 个 和 矩阵 是 对 称 的 ， 因 此 有 n(n € 1)/2 个 不 同 的 数值 。 像 这 样 的 参数 数量 增长 将 
造成 严重 的 过 度 拟 合 ， 我 们 将 稍 后 讨论 。 

为 了 适应 名 目 属性 ， 必 须 放弃 正 态 分 布 。 对 一 个 含有 ~ 个 可 能 值 的 名 目 属性 ， 用 "个 
数字 来 代表 每 种 值 的 概率 。 对 每 个 类 需要 不 同 的 数字 组 合 ， 总 共有 v 个 参数 。 这 个 情形 
与 朴素 贝 叶 斯 方法 很 相似 。 对 应 的 期 望 和 最 大 化 这 两 个 步骤 与 先前 所 述 的 操作 是 一 样 的 。 
期 望 : 给 定 分 布 参数 ， 对 每 个 实例 所 在 的 聚 类 进行 估计 ， 如 同 对 未 知 实例 进行 类 预测 。 最 
大 化 : 用 已 分 类 的 实例 对 参数 进行 估计 ， 如 同 从 训练 实例 中 决定 属性 值 的 概率 ， 一 个 小 区 
别 在 于 EM 算法 中 给 实例 赋予 的 是 类 概率 而 不 是 类 别 。 在 4. 2 节 中 我 们 已 遇 到 估计 概率 可 
能 为 0 的 问题 ， 这 里 也 同样 会 碰 到 。 幸 运 的 是 ， 解 决 方法 很 简单 ， 使 用 拉 普 拉 斯 估计 器 。 

朴素 贝 叶 斯 假设 属性 是 独立 的 ， 这 是 它 称 为 “朴素 ”的 原因 所 在 。 一 对 分 别 及 个 
和 个 可 能 属性 值 的 相关 的 名 目 属 性 ， 可 以 用 有 wzw 个 可 能 属性 值 的 单个 协 变 属性 来 代 
替 。 同 样 ， 参 数 的 数量 随 着 相关 属性 数量 的 增加 而 增多 ， 这 将 涉及 概率 估计 及 过 度 拟 合 
问题 。 

对 既 有 数值 属性 又 有 名 目 属性 的 数据 进行 聚 类 没有 什么 特别 的 问题 。 协 变量 的 数值 和 
名 目 属性 处 理 起 来 更 加 困难 ， 这 里 不 做 讨论 。 

可 以 使 用 多 种 不 同 的 方法 来 调整 以 适应 缺失 值 。 原 则 上 ， 和 缺失 值 可 以 当做 未 知 量 ， 在 
EM 过 程 中 与 聚 类 的 平均 值 和 方差 一 样 进行 估计 。 一 种 简单 的 方式 是 在 预 处理 过 程 中 用 平 
均值 或 最 常 出 现 的 模式 代替 缺失 值 。 

有 了 这 些 改进 ， 概 率 聚 类 变 得 相当 完备 。EM 算法 贯穿 于 整个 工作 过 程 中 。 用 户 必须 
指定 要 搜索 的 聚 类 数目 、 每 个 属性 的 类 型 (数值 属性 或 名 目 属性 ) 、 哪 些 属性 要 应 用 协 变 
模式 以 及 如 何 处 理 缺 失 值 。 另 外 ， 除 了 上 述 分 布 类 型 外 ， 还 可 应 用 其 他 不 同 的 分 布 。 虽 然 
对 于 数值 属性 来 说 正 态 分 布 通常 是 一 个 好 的 选择 ， 但 对 于 某 些 有 预 设 的 最 小 值 (如 对 于 属 
性 重量 来 说 ， 它 的 最 小 值 为 0) 却 没 有 上 限 的 属性 它 并 不 适合 ， 这 时 比较 适合 使 用 “对 数 
正 态 ” (log-normal) 分 布 。 同 时 具有 上 限 和 下 限 的 数值 属性 可 以 用 “对 数 优 势 ” Clog- 
odds) 分 布 。 属 性 值 为 整数 而 非 实数 时 最 好 使 用 泊 松 分 布 。 一 个 完善 的 系统 应 该 允许 对 每 
个 属性 单独 设 定 概 率 分 布 。 在 每 种 情形 下 ， 分 布 都 要 涉及 数字 参数 : 对 于 离散 属性 来 说 ， 
是 所 有 可 能 属性 值 的 概率 ; 对 于 连续 属性 来 说 ， 是 平均 值 和 标准 差 。 

在 本 节 中 我 们 讨论 的 是 聚 类 。 也 许 你 会 想到 这 些 改 进 措施 也 应 该 能 很 好 运用 于 朴素 贝 
叶 斯 算法 ， 你 是 对 的 。 一 个 完善 的 概率 模型 既 适 用 于 聚 类 也 适用 于 分 类 学 习 ， 适 用 于 各 种 
不 同 分 布 的 名 目 属 性 和 数值 属性 ， 适 合 于 各 种 不 同 的 协 变 可 能 ， 也 适合 于 不 同 的 缺失 值 处 
理 方法 。 作 为 领域 知识 的 一 部 分 ， 用 户 要 指定 各 个 属性 所 使 用 的 分 布 。 


6.8.9 贝 叶 斯 聚 类 


然而 ， 还 有 一 个 障碍 : 过 度 拟 合 。 你 也 许 会 说 如 果 不 确定 哪些 属性 是 相互 依赖 的 ， 为 
什么 不 安全 一 点 将 所 有 属性 都 设 定 为 协 变 的 ? 管 案 是 参数 越 多 最 终 模 型 结构 就 越 可 能 对 训 
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练 数据 产生 过 度 拟 合 ， 协 变 设 定 会 使 参数 数量 急剧 上 升 。 机 器 学 习 中 总 是 会 产生 过 度 拟 合 
问题 ， 概 率 聚 类 也 不 例外 。 有 两 种 情况 会 产生 过 度 拟 合 : 所 设 聚 类 的 数目 太 多 ; 所 设 分 布 
参数 太 多 。 

一 种 聚 类 数目 过 多 的 极端 现象 是 每 个 数据 点 即 为 一 个 聚 类 : 显然 这 将 产生 对 训练 数据 
的 过 度 拟 合 。 实 际 上 ， 在 混合 模型 中 ， 当 正 态 分 布 变 得 很 狭窄 以 至 于 集中 在 一 个 数据 点 上 
时 ， 就 会 产生 过 度 拟 合 问题 。 因 此 在 实现 中 ， 通 常 要 规定 聚 类 必须 至 少 包 含 两 个 不 同 的 数 
据 值 。 

当 参 数 数量 多 时 ， 也 会 发 生 过 度 拟 合 问题 。 如 果 不 确定 哪些 属性 是 协 变 的 ， 你 可 能 会 
对 各 种 不 同 协 变 的 可 能 进行 实验 ， 然 后 挑选 其 中 能 使 数据 处 于 所 找到 聚 类 的 总 体 概 率 达到 
最 大 值 的 那个 。 不 幸 的 是 ， 参 数 数量 越 多 ， 这 个 数据 总 体 概率 也 越 高 。 这 个 高 概率 并 非 是 
好 的 聚 类 造成 的 ， 而 是 过 度 拟 合 造成 的 。 越 多 的 参数 参与 ， 越 是 容易 找到 看 起 来 似乎 很 好 
的 聚 类 。 

如 果 能 在 引入 新 参数 的 同时 引入 惩罚 项 是 个 不 错 的 主意 。 一 个 基本 的 方法 就 是 采用 贝 
叶 斯 方法 ， 让 每 个 参数 都 有 一 个 先 验 概率 分 布 。 然 后 当 引入 一 个 新 参数 时 ， 它 的 先 验 概率 
要 参与 总 体 似 然 的 计算 。 由 于 总 体 似 然 要 乘 以 一 个 小 于 1 的 数字 ， 即 先 验 概 率 ， 所 以 自动 
产生 惩罚 。 若 要 提高 总 体 似 然 ， 新 参数 必须 在 扣除 惩罚 后 还 能 产生 收益 。 

从 某 种 意义 上 看 ，4. 2 节 中 提 到 的 以 及 上 述 对 于 名 目 属性 值 遇 到 零 概 率 问 题 时 ， 建 议 
使 用 的 拉 普 拉 斯 估计 器 是 这 样 一 种 策略 ， 当 观察 到 的 概率 很 小 时 ， 拉 普 拉 斯 估计 器 强制 增 
加 惩罚 项 ， 使 这 个 0 或 接近 0 的 概率 提高 ， 从 而 降低 数据 的 总 体 似 然 。 将 两 个 名 目 属性 协 
变 会 加 剧 这 个 小 概率 问题 。 原 先 有 +v 个 参数 〈 这 里 和 是 可 能 的 属性 值 个 数 ) ， 现 
在 增加 为 ww 个 参数 ， 同 时 也 大 大 增加 了 产生 大 量 小 估计 概率 的 机 会 。 实 际 上 ， 拉 普 拉 斯 
估计 器 与 引入 新 参数 时 使 用 某 个 特定 的 先 验 概率 是 等 效 的 。 

对 于 至 类 数目 过 多 的 问题 也 可 采用 相同 的 技术 来 抑制 ， 只 要 预 设 一 个 先 验 分 布 ， 当 聚 
类 数目 增加 时 它 将 急剧 下 降 。AutoClass 是 一 种 完善 的 贝 叶 斯 聚 类 方法 ， 它 使 用 有 限 混 合 模 
型 ， 每 个 参数 都 带 有 先 验 分 布 。 它 适用 于 数值 属性 和 名 目 属性 ， 并 且 使 用 EM 算法 对 概率 
分 布 参数 做 出 最 符合 数据 的 估计 。 由 于 不 能 保证 EM 算法 一 定 收敛 于 全 局 最 优点 ， 所 以 使 
用 不 同 的 初始 值 进行 多 次 重复 运行 。 不 仅 如 此 ，AutoClass 还 考虑 不 同 的 聚 类 数目 、 不 同 的 
协 方差 ， 以 及 对 于 数值 属性 的 不 同 概率 分 布 类 型 。 这 又 涉及 一 个 额外 的 外 层 搜寻 。 例 如 ， 
它 初始 时 分 别 对 2、3、5、7、10、15 和 25 个 聚 类 进行 对 数 似 然 评估 ， 然 后 为 结果 数据 找 
到 合适 的 对 数 正 态 分 布 ， 并 从 中 随机 选择 ， 用 更 多 的 值 进行 测试 。 正 如 你 所 想象 的 ， 整 个 
算法 非常 耗 时 。 在 实际 实现 过 程 中 ， 有 一 个 预 设 的 时 间 限 度 ， 只 要 在 时 间 人 允许 范围 ， 就 继 
续 迭 代 过 程 。 这 个 时 间 限 度 设 得 越 长 ， 效 果 越 好 。 

与 其 展示 给 用 户 最 有 可 能 的 聚 类 ， 不 如 将 所 有 的 聚 类 根据 概率 加 权 并 把 它们 全 部 展示 
给 用 户 。 最 近 ， 有 人 提出 了 对 于 层次 聚 类 的 完全 贝 叶 斯 技术 ， 该 技术 把 表示 数据 集 的 所 有 
可 能 的 层次 结构 的 概率 分 布 作为 输出 。 图 6-26 是 一 个 可 视 化 的 例子 ， 叫 做 DensiTree， 它 
用 三 角形 展示 了 某 一 数据 集 的 所 有 树 的 集合 。 该 树 最 好 用 其 “进化 枝 ” 表 示 ， 这 是 一 个 来 
自 希腊 语 klados 的 生物 学 术语 ， 意 思 是 包含 所 有 祖先 在 内 的 同一 种 群 的 一 组 分 支 。 此 处 有 
5 个 可 以 清晰 区 分 的 进化 枝 。 第 1 个 和 第 4 个 进化 枝 都 对 应 于 单个 的 叶子 结 点 ， 第 5 个 进 
化 校 有 两 个 非常 明显 的 叶子 ， 这 两 个 叶子 也 可 以 分 别 看 做 是 进化 枝 。 第 2 个 和 第 3 个 进化 
枝 各 有 5 个 叶子 ,它们 的 结构 具有 很 大 的 不 确定 性 。 这 种 可 视 化 方式 使 人 们 很 容易 把 握 数 
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据 中 可 能 存在 的 层次 聚 类 ， 至 少 从 整体 上 来 说 是 可 以 的 。 
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图 6-26 ”对 于 一 个 给 定数 据 集 ， 使 用 DensiTree 展示 可 能 的 层次 聚 类 结果 


6.8.10 ”讨论 


上 述 各 种 聚 类 方法 产生 不 同 种 类 的 输出 。 它 们 都 能 对 新 数据 以 测试 集 的 形式 ， 根 据 对 
训练 集 分 析 所 得 的 聚 类 来 进行 分 类 。 然 而 ， 只 有 层次 聚 类 和 增 量 聚 类 方法 可 以 生成 显 式 的 
知识 结构 ， 能 够 将 聚 类 描述 可 视 化 并 做 出 合理 的 论述 。 至 于 其 他 算法 形成 的 聚 类 ， 如 果 维 
数 不 是 太 多 ， 可 在 实例 空间 实现 可 视 化 。 

如 果 使 用 聚 类 方法 对 训练 集 实 例 按照 所 在 聚 类 编号 赋予 标签 ， 标 有 标签 的 数据 集 就 可 
用 于 训练 一 个 规则 或 决策 树 学 习 器 。 规 则 或 决策 树 的 学 习 结 果 将 形成 显 式 的 类 描述 。 概 率 
聚 类 方案 也 可 用 于 同样 的 目的 ， 除 了 每 个 实例 可 能 有 多 个 加 权 的 标签 外 ， 因 此 规则 或 决策 
树 学 习 器 必须 能 处 理 加 权 的 实例 〈 许 多 学 习 器 都 可 以 ) 。 

聚 类 的 另 一 个 应 用 是 填补 属性 的 缺失 值 。 例 如 ， 可 以 对 某 个 实例 的 未 知 属性 值 进行 统 
计 估 计 ， 根 据 实 例 本 身 的 类 分 布 以 及 其 他 样本 中 这 个 未 知 属性 值 来 估计 。 

我 们 所 考查 的 所 有 聚 类 方法 都 是 在 独立 属性 这 个 假设 前 提 下 的 。AutoClass 允许 用 户 事 
先 指 定 两 个 或 两 个 以 上 的 属性 间 存 在 相互 依赖 关系 ， 并 使 用 联合 概率 分 布 模型 (然而 ， 这 
里 有 个 限定 : 名 目 属 性 之 间 也 许 会 发 生 关联 变化 ， 数 值 属性 之 间 同 样 也 会 ， 但 这 两 种 属性 
之 间 没 有 关联 变化 。 另 外 ， 对 于 缺失 值 ， 关 联 变化 属性 也 不 适合 ) 。 使 用 某 种 统计 学 技术 ， 
譬如 将 在 7. 3 节 中 讨论 的 主 成 分 转换 法 ， 对 数据 集 进行 预 处 理 从 而 使 属性 更 加 独立 ， 或 许 
能 有 些 益处 。 注 意 ， 这 些 技术 并 不 能 消除 存在 于 某 些 特定 类 内 的 联合 变化 ， 它 只 能 消除 存 
在 于 所 有 类 之 间 的 总 体 联合 变化 。 

通过 重复 分 裂 聚 类 并 考察 分 裂 是 否 值得 ， 以 此 来 改进 天 均值 法 使 之 能 找到 较 好 的 上 
值 ， 这 个 方法 是 Moore 和 Peleg (2000) 提出 的 和 均值 算法 。 它 使 用 了 一 个 称 为 贝 叶 斯 信 
息 准则 的 概率 方法 (Kass 和 Wasserman, 1995) 来 替代 MDL 原理 。 层 次 聚 类 的 高 效 凝 聚 
算法 是 Day 和 Edelsbrünner (1984) 提出 的 ， 最 近 的 一 些 书 (Duda 等 ，2001; Hastie 等 ， 
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2009) 也 描述 了 该 思想 。 基 于 合并 和 分 裂 操 作 的 增 量 聚 类 程序 是 在 适用 于 名 目 属性 的 Cob- 
web 系统 (Fisher, 1987) 和 适用 于 数值 属性 的 Classit 系统 (Gennari 等 ，1990) 中 提出 
的 。 这 两 个 系统 都 是 以 先前 (Gluck 和 Corter，1985) 定义 的 类 别 效 用 度量 方法 为 基础 的 。 
AutoClass 程序 是 由 Cheeseman 和 Stutz (1995) 提出 的 。 现 有 两 种 实现 版 本 : 用 LISP 实现 
的 原始 研究 版 本 和 随后 用 C 编写 的 开源 版 本 ， 后 者 比 前 者 快 10 ~ 20 倍 ， 但 却 有 些 局 限 ， 
例如 对 于 数值 属性 只 实现 了 正 态 分 布 模型 。DensiTree 是 Bouckaert (2010) 提出 的 。 

针对 大 规模 多 维 数据 集 ， 提 出 了 一 个 叫做 基于 层次 的 平衡 迭代 约 减 和 聚 类 ( Balanced 
Iterative Reducing and Clustering using Hierarchies, BIRCH) 的 层次 聚 类 算法 ， 必须 使 用 高 
效 的 操作 以 使 输入 /输出 成 本 最 小 (Zhang 等 ，1996)。 它 增 量 地 、 动 态 地 对 多 维 数据 点 进 
行 聚 类 ， 在 给 定 主 存 和 时 间 约 束 的 条 件 下 寻找 最 优 的 聚 类 。 它 通常 扫描 一 遍 数 据 集 就 能 找 
到 一 个 好 的 聚 类 ， 然 后 还 可 以 通过 再 次 扫描 数据 集 来 获得 改进 。 


6.9 EHE 


在 第 2 章 介 绍 机 器 学 习 过 程 时 ， 我 们 严格 区 分 了 有 监督 学 习 和 无 监督 学 习 〈 即 分 类 和 
聚 类 ) 。 本 章 我 们 将 研究 许多 同时 进行 有 监督 和 无 监督 学 习 的 技术 。 最 近 ， 研 究 人 员 开 始 
研究 介 于 二 者 之 间 的 学 习 方法 ， 有 时 叫做 半 监 督学 习 (semisupervised learning) ， 它 的 目标 
是 分 类 ， 但 是 输入 中 同时 包含 有 类 标的 数据 和 无 类 标的 数据 。 当 然 ， 没 有 带 类 标的 数据 就 
无 法 进行 分 类 ， 因 为 只 有 类 标 表明 类 别 是 什么 。 有 时 ， 向 少量 的 带 类 标 数 据 中 增添 大 量 的 
无 类 标 数据 很 有 吸引 力 。 事 实 表 明 无 类 标 数据 能 帮助 学 习 一 个 更 好 的 分 类 器 。 这 是 怎么 做 
到 的 呢 ? 

首先 ， 为 什么 需要 半 监 督学 习 呢 ? 许多 情况 都 会 产生 大 量 未 加 工 过 的 原始 数据 ， 但 给 
这 些 数 据 标注 类 别 的 成 本 高 晶 ， 因 为 它 需要 人 工 参 与 。 文 本 挖掘 就 是 一 个 很 好 的 例子 。 假 
设 你 想 要 将 网 页 分 到 事先 定义 好 的 若干 组 中 。 若 是 在 学 校 中 ， 你 可 能 对 院 系 网 页 、 研 究 生 
网 页 、 课 程 信息 网 页 、 研 究 组 网 页 以 及 部 门 网 页 感 兴趣 ， 你 可 以 轻易 地 从 学 校 网 站 上 下 载 
到 成 千 上 万 的 相关 网 页 。 但 是 为 训练 数据 分 配 类 标 是 一 个 费时 费力 的 人 工 处 理 过 程 。 或 者 
假设 你 的 工作 是 使 用 机 器 学 习 来 辨认 文本 中 的 名 字 ， 区 分 出 人 名 、 公 司 名 称 和 地 名 ， 你 可 
以 很 容易 下 载 兆 字 节 或 者 吉 字 节 的 文本 ， 但 是 从 中 挑选 出 名 字 并 把 它 分 类 得 到 训练 数据 的 
过 程 只 能 人 工 完成 。 对 新 闻 稿件 分 类 、 对 电子 邮件 分 类 来 学 习 用 户 的 阅读 兴趣 ， 这 类 应 用 
很 多 。 先 不 管 文本 ,假设 你 想 要 学 习 从 电视 广播 的 新 闻 中 识别 出 某 个 特定 的 名 人 ， 你 可 以 
很 容易 记录 数 百 或 数 千 小 时 的 新 闻 广 播 ， 但 是 仍然 需要 人 工 确定 类 标 。 在 所 有 这 些 情况 
中 ， 如 果 能 从 很 少 的 带 类 标的 实例 中 ， 利 用 大 量 无 类 标的 数据 来 获得 较 好 的 性 能 ， 将 会 是 
十 分 具有 吸引 力 的， 尤其 是 ， 当 你 就 是 那个 进行 人 工 归 类 工作 的 研究 生 时 1 


6.9.1 用 于 分 类 的 聚 类 


如 何 使 用 无 类 标的 数据 提高 分 类 效果 呢 ? 这 里 有 一 个 简单 的 想法 。 使 用 朴素 贝 叶 斯 方 
法 从 一 个 小 的 带 类 标的 数据 集中 学 习 一 个 分 类 器 ， 然 后 使 用 上 一 节 介 绍 的 EM 迭代 聚 类 算 
法 将 它 扩展 到 大 的 无 类 标的 数据 集 上 。 整 个 过 程 如 下 : 第 一 步 ， 使 用 带 类 标的 数据 训练 一 
个 分 类 器 。 第 二 步 ， 把 它 应 用 到 无 类 标 数据 上 ， 为 它 标记 类 概率 〈“ 期 望 ”过 程 ) 。 第 三 
步 ， 使 用 所 有 数据 的 类 标 训练 一 个 新 的 分 类 器 (“最 大 化 ”过 程 )。 第 四 步 ， 迭 代 直 至 收 
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敛 。 你 可 以 把 它 想象 成 迭代 聚 类 的 过 程 ， 其 中 初始 点 和 聚 类 的 类 标 来 自 于 带 类 标的 数据 。 
EM 过 程 保证 每 次 迭代 过 程 中 得 到 的 模型 参数 的 似 然 值 增 大 或 者 不 变 。 关 键 问 题 是 ， 这 些 
较 大 的 参数 似 然 估 计 值 是 否 会 提高 分 类 的 准确 率 ， 而 这 只 能 根据 经 验 回答 。 

直觉 上 ， 这 种 方法 效果 可 能 很 好 。 考 虑 文本 分 类 问题 。 某 些 特定 的 短语 能 够 表明 类 
别 。 有 些 短语 出 现在 带 类 标的 文档 中 ， 其 他 的 只 出 现在 不 带 类 标的 文档 中 。 当 然 也 可 能 有 
一 些 文档 同时 包含 这 两 者 ，EM 过 程 据 此 泛 化 学 习 得 到 的 模型 ， 使 之 能 利用 不 出 现在 带 类 
标的 数据 集中 的 短语 。 例 如 ，supervisor 和 Ph. D. topic 都 可 能 表明 这 是 一 个 研究 生 的 网 页 。 
假设 只 有 前 一 个 短语 出 现在 了 带 类 标的 文档 中 。EM 迭代 地 泛 化 这 个 模型 ， 使 之 能 对 包含 
后 者 的 文档 正确 分 类 。 

这 个 过 程 对 于 任何 分 类 器 和 任何 迁 代 聚 类 算法 都 是 可 行 的 。 但 它 基本 上 只 是 一 个 引导 
程序 ， 你 必须 保证 反馈 回路 是 正 反馈 。 使 用 概率 来 代替 硬性 决定 看 起 来 是 有 益 的 ， 因 为 它 
会 使 程序 缓慢 的 收敛 而 不 是 跳 到 一 个 可 能 错误 的 结论 中 。 将 朴素 贝 叶 斯 和 基本 的 概率 EM 
过 程 结合 在 一 起 使 用 ， 是 一 个 特别 好 的 选择 ， 因 为 它们 都 依赖 同样 的 基本 假设 : 属性 间 的 
独立 性 ， 或 者 更 准确 地 说 ， 给 定 类 别 时 属性 间 的 条 件 独立 性 。 

当然 ， 大 多 数 情况 下 ， 独 立 性 假设 是 不 满足 的 。 即 使 在 使 用 两 个 单词 的 短语 Ph. D. topic 
的 小 例子 中 ， 具 体 实 现时 可 能 会 使 用 单个 单词 作为 属性 。 如 果 我 们 替换 了 单个 短语 Ph. D. 
或 topic 中 的 任何 一 个 ， 上 面 这 个 例子 就 不 能 令 人 信服 了 。 短 语 Ph. D. students 更 可 能 是 指 
一 个 部 门 而 不 是 研究 生 的 网 页 ; 短语 research topic 的 区 分 能 力也 可 能 降低 。 给 定 类 别 时 ， 
Ph. D. 和 topic 不 是 条 件 独立 的 ， 正 是 这 一 事实 才 会 使 得 上 面 例子 的 情况 发 生 : 这 两 个 短 
语 的 组 合 才 描述 了 研究 生 的 网 页 。 

尽管 如 此 ， 在 文本 分 类 领域 ,把 朴素 贝 叶 斯 和 EM 以 这 种 方式 结合 使 用 效果 还 很 好 。 
在 某 个 分 类 任务 中 ， 与 传统 的 分 类 器 相 比 ， 该 方法 使 用 不 到 1/3 的 带 类 标的 训练 实例 和 5 
倍 的 不 带 类 标的 实例 ， 就 达到 了 相同 的 性 能 。 当 带 类 标的 实例 很 昂贵 而 不 带 类 标的 实例 几 
乎 免费 时 ， 这 是 一 种 很 好 的 权衡 。 使 用 少量 带 类 标的 文档 ， 通 过 加 入 大 量 不 带 类 标的 文 
档 ， 分 类 器 的 准确 率 可 以 得 到 显著 提高 。 

还 有 两 种 对 该 过 程 的 改进 方法 来 提高 性 能 。 第 一 个 改进 的 动机 是 因为 有 实验 证 据 表 
明 ， 当 存在 许多 带 类 标的 文档 时 ， 加 入 不 带 类 标的 文档 并 不 会 增加 而 是 会 降低 准确 率 。 
人 工 标 注 的 数据 (应该) 比 自动 标记 的 数据 包含 更 少 的 噪声 。 解 决 方法 是 引入 一 个 权 
值 参 数 以 减少 无 类 标 数据 的 贡献 。 通 过 最 大 化 加 权 的 带 类 标 和 不 带 类 标 实例 的 似 然 ， 该 
权 值 可 以 整合 到 EM 的 最 大 化 过 程 中 。 当 参数 接近 0 时 ,不 带 类 标的 文档 对 于 EM 算法 
候 山 面 的 形状 影响 很 小 ; 当 参 数 接近 1 时 ,算法 回 到 原始 版 本 ， 两 种 文档 对 于 息 山 面 的 
影响 相等 。 

第 二 个 改进 是 允许 每 个 类 有 多 个 聚 类 。 正 如 前 一 节 所 解释 的 ，EM 聚 类 算法 假设 数据 
是 由 不 同 概率 分 布 混合 后 随机 生成 的 ， 其 中 每 个 聚 类 都 有 一 个 概率 分 布 。 到 目前 为 止 ， 我 
们 都 假设 混合 成 分 和 类 别 之 间 存 在 一 一 对 应 关系 。 许 多 情况 下 ， 包 括 在 文档 分 类 中 ， 这 是 
不 切实 际 的 ， 因 为 大 多 数 文档 都 会 包含 多 个 主题 。 为 每 个 类 分 配 多 个 聚 类 ， 每 个 带 类 标的 
文档 都 以 概率 的 形式 为 它 的 每 个 成 分 初始 化 为 随机 值 。EM 算法 的 最 大 化 过 程 仍 和 以 前 一 
样 ， 但 是 期 望 过 程 要 做 改动 ， 不 仅 要 对 每 个 实例 以 概率 的 形式 分 配 类 标 ， 还 要 为 每 个 类 内 
部 的 成 分 分 配 概 率 值 。 每 个 类 的 聚 类 数目 是 一 个 依赖 于 领域 的 参数 ， 可 以 通过 交叉 验证 来 


确定 。 
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6. 9.2 协同 训练 


另 一 种 无 类 标 数据 能 够 改进 分 类 性 能 的 情况 是 ， 对 于 分 类 任务 有 两 个 不 同 且 独立 视角 
的 分 类 器 。 再 次 以 文档 作为 一 个 典型 的 例子 进行 说 明 (这 次 是 Web 文档 ) ， 两 个 视角 分 别 
是 网 页 的 内 容 (content) 和 来 自 其 他 网 页 的 链接 (link) 。 众 所 周知 ， 这 两 个 视角 都 是 非 
常 有 用 并 且 不 同 的 : 成 功 的 网 络 搜索 引擎 都 秘密 地 结合 使 用 这 两 者 。 链 接 到 另 一 个 网 页 上 
的 标签 文本 揭示 了 男 一 个 页 面 可 能 是 关于 什么 的 ， 或许 比 那个 页 面 本 身 的 内 容 更 能 反映 这 
一 点 ， 尤 其 是 如 果 该 链接 是 独立 的 。 直 觉 上 ， 一 个 标签 为 my advisor 的 链接 是 一 个 有 力 的 
证 据 表明 目标 页 面 是 一 个 部 门 成 员 的 主页 。 

这 就 是 协同 训练 (co-training) 的 思想 。 给 定 一 些 带 类 标的 实例 ， 首 先 从 每 个 视角 学 
习 得 到 不 同 的 分 类 器 ， 这 个 例子 中 是 基于 文本 和 基于 超 链接 的 模型 。 然 后 分 别 使 用 每 个 分 
类 器 来 对 无 类 标的 实例 做 标记 。 为 每 个 模型 选择 它 最 确信 的 正 例 类 标 和 最 确信 的 负 例 类 
标 ， 把 它们 加 入 到 带 类 标的 实例 池 中 。 更 好 的 是 ， 通 过 从 两 种 实例 中 选择 不 等 数量 的 实例 
加 入 到 带 类 标的 实例 池 中 ， 使 实例 池 中 正 例 和 负 例 保持 一 定 比例 。 重 复 整 个 过 程 ， 在 新 增 
的 带 类 标的 实例 池上 训练 这 两 个 模型 ， 直 到 所 有 的 未 标记 实例 都 用 完 为 止 。 

有 实验 证 据 表明 ， 如 果 自 始 至 终 都 使 用 贝 叶 斯 作为 学 习 器 ， 那 么 该 引导 程序 的 性 能 要 
优 于 在 两 个 视角 的 所 有 特征 上 从 带 类 标的 数据 中 学 习 得 到 的 单个 模型 的 性 能 。 它 依赖 于 实 
例 有 两 个 元 余 但 不 完全 相关 的 视角 。 该 算法 已 经 应 用 于 各 种 领域 ， 如 分 别 使 用 视频 和 音频 
来 发 现 新 闻 广 播 中 的 名 人 ， 同 时 使 用 视觉 、 声 纳 和 距离 传感器 来 控制 移动 机 器 人 等 。 视 角 
的 独立 性 减少 了 两 个 假设 在 一 个 错误 标签 上 达成 一 致 的 可 能 性 。 


6.9.3 EM 和 协同 训练 


在 包含 两 个 完全 独立 的 特征 集合 的 数据 集中 ， 实 验 表明 协同 训练 得 到 的 结果 比 前 面 描 
述 的 EM 算法 的 结果 好 。 然 而 ， 将 这 两 种 方法 结合 得 到 改进 版 协同 训练 算法 会 达到 更 好 的 
性 能 ， 这 个 修改 版 协同 训练 算法 叫做 co-EM。 协 同 训练 首先 训练 代表 不 同 视角 的 两 个 分 类 
器 A 和 B， 然 后 使 用 这 两 个 分 类 器 ， 将 两 个 分 类 器 最 确信 的 正 例 和 负 例 加 入 到 训练 池 中 。 
这 样 得 到 的 新 实例 很 少 并 且 有 确定 的 类 标 。 而 co-EM 算法 在 带 类 标的 数据 上 训练 分 类 器 
A， 用 它 以 概率 形式 标记 所 有 不 带 类 标的 数据 。 接 下 来 同时 使 用 带 类 标的 数据 和 分 类 器 A 
标记 的 不 确定 类 标的 数据 来 训练 分 类 器 B， 然 后 用 它 以 概率 形式 重新 标记 分 类 器 A 标记 过 
的 所 有 数据 。 和 迭代 整个 过 程 直到 分 类 器 收敛 。 这 个 过 程 看 起 来 性 能 始终 要 比 协同 训练 好 ， 
因为 它 并 不 是 直接 承认 分 类 器 A 和 B 生成 的 类 标 ， 而 是 在 每 次 迭代 重新 估计 类 标的 概率 。 

和 协同 训练 一 样 ，co-EM 的 应 用 范围 也 受到 多 个 独立 视角 这 个 要 求 的 限制 。 但 是 有 些 
实验 证 据 表 明 ， 即 使 特征 不 能 自然 地 分 成 独立 的 视角 ， 人 工 制造 这 种 分 裂 并 且 在 分 类 后 的 
数据 上 使 用 协同 训练 ， 或 者 更 好 地 使 用 co-EM， 也 会 获得 益处 。 其 至 随机 进行 分 裂 时 ， 该 
方法 似乎 也 有 作用 。 当 然 可 以 通过 设计 分 裂 使 特征 集 的 独立 性 最 大 化 ， 从 而 提升 性 能 。 这 
为 什么 可 行 呢 ? 研究 人 员 猜 测 这 些 算 法 成 功 的 部 分 原因 是 ， 分 裂 使 它们 对 分 类 器 做 出 的 潜 
在 假设 更 加 具有 健壮 性 。 

没有 特别 的 理由 将 底层 的 分 类 器 限制 为 朴素 贝 叶 斯 。 支 持 向 量 机 可 能 代表 了 现在 最 成 
功 的 文本 分 类 技术 。 然 而 ， 为 了 使 EM 迭代 能 够 工作 ， 分 类 器 必须 要 对 数据 以 概率 形式 标 
记 ， 它 也 必须 能 够 使 用 概率 加 权 的 实例 进行 训练 。 支 持 向 量 机 可 以 很 容易 地 扩展 以 满足 这 
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两 个 方面 。 我 们 已 经 在 6. 6 节 局 部 加 权 线 性 回归 部 分 ， 解释 了 如 何 调整 学 习 算 法 以 处 理 加 
权 的 实例 。 一 种 使 支持 向 量 机 获得 概率 估计 的 方法 是 ， 对 结果 拟 合 一 个 1 维 的 Logistic 模 
型 ， 按 照 4.6 节 描 述 的 方法 有 效 地 对 输出 进行 Logistic 回归 。 有 报告 表明 对 于 文本 分 类 ， 
使 用 包含 支持 向 量 机 (SVM) 分 类 器 的 co- EM 算法 能 得 到 非常 出 色 的 结果 。 它 比 其 他 
SVM 变 体 的 性 能 好 ， 并 且 似 乎 对 于 不 同比 例 的 带 类 标 和 不 带 类 标 数 据 更 具有 健壮 性 。 


6.9.4 讨论 


Nigam 等 (2000) 深入 研究 了 将 聚 类 用 于 分 类 的 思想 ， 展 示 了 EM 算法 如 何 使 用 不 带 


类 标的 数据 来 改进 最 初 使 用 朴素 贝 叶 斯 方法 建立 的 分 类 器 。 协 同 训练 的 想法 更 早 一 些 ， 
Blum 和 Mitchell (1998) 最 先 开始 研究 它 ， 并 发 展 了 一 个 理论 模型 ， 用 于 从 不 同 的 独立 视 
角 使 用 带 类 标 和 不 带 类 标的 数据 。Nigam 和 Ghani (2000) 分 析 了 协同 训练 的 有 效 性 和 适 
用 性 ， 将 它 和 传统 的 标准 期 望 最 大 化 联系 起 来 以 填写 缺失 值 ， 他 们 还 提出 了 co-EM 算法 。 
到 目前 为 止 , 协同 训练 和 co-EM 主要 应 用 于 小 的 两 类 问题 。Ghani (2002) 使 用 误差 纠正 
输出 编码 来 处 理 多 类 别 的 情况 。Brefeld 和 Scheffer (2004) 使 用 支持 向 量 机 来 代替 朴素 贝 
叶 斯 扩展 了 co-EM 算法 。 


6.10 ”多 实例 学 习 


到 目前 为 止 ， 本 章 描述 的 所 有 技术 都 是 针对 标准 机 器 学 习 场景 的 ， 即 每 个 样本 只 包含 
单个 实例 。 在 进行 第 7 章 的 输入 数据 转换 方法 的 学 习 之 前 ， 我 们 再 次 讨论 更 加 复杂 的 多 实 
例 学 习 问 题 ， 即 每 个 样本 是 由 一 袋 实例 组 成 的 。 我 们 将 说 明 比 在 4. 9 节 中 讨论 的 更 加 高 级 
的 方法 。 首 先 ， 我 们 考虑 如 何 通 过 转换 数据 ， 将 多 实例 学 习 转 换 成 单 实例 问题 。 然 后 我 们 
讨论 如 何 将 单 实例 算法 升级 以 适应 多 实例 的 情况 。 最 后 ， 我 们 简单 介绍 在 单 实例 学 习 中 没 
有 直接 等 效 算法 的 一 些 方法 。 


6.10.1 ”转换 为 单 实 例 学 习 


4.9 节 展 示 了 一 些 通过 对 输入 或 输出 聚集 ， 将 标准 的 单 实例 学 习 算 法 应 用 于 多 实例 数据 
的 方法 。 尽 管 它们 很 简单 ， 但 这 些 技术 通常 在 实际 中 工作 出 奇 地 好 。 不 过 ， 显 然 在 许多 情况 
中 ， 这 些 方法 将 会 失效 。 考 虑 聚集 输入 的 方法 ， 该 方法 计算 每 个 样本 中 所 有 实例 数值 属性 的 
最 小 和 最 大 值 ， 并 将 结果 作为 一 个 单独 的 实例 。 这 将 会 导致 大 量 信息 的 丢失 ， 因 为 属性 单独 
且 独 立地 被 压缩 成 汇总 统计 。 一 袋 实例 能 否 转换 为 单个 实例 ， 而 不 必 丢 失 如 此 多 的 信息 呢 ? 

答案 是 肯定 的 ， 尽 管 在 所 谓 的 “压缩 的 ”表示 中 属性 的 个 数 可 能 会 明显 增加 。 基 本 的 
思想 是 ， 将 实例 空间 划分 成 几 个 区 域 ， 在 单 实例 的 表示 中 为 每 个 区 域 创建 一 个 属性 。 在 最 
简单 的 情形 下 ， 属 性 是 布尔 类 型 的 : 如 果 对 于 某 一 属性 ， 一 袋 实例 中 至 少 有 一 个 实例 在 该 
区 域 中 ， 该 属性 的 值 就 设 为 真 ， 否 则 设 为 假 。 然 而 ， 为 了 保留 更 多 的 信息 ， 压 缩 的 表示 中 
可 以 包含 数值 属性 ， 属 性 的 值 是 表示 实例 袋 中 位 于 相应 区 域 的 实例 的 数目 。 

若 不 考虑 生成 属性 的 具体 类 型 ， 主 要 问题 就 是 找 出 一 个 对 输入 空间 的 划分 。 一 种 较为 
简单 的 方法 是 将 空间 划分 成 大 小 相等 的 超 立方 体 。 不 幸 的 是 ， 只 有 当空 间 有 少数 几 个 维度 
( 即 属性 ) 时 ， 该 方法 才 有 效 : 要 获得 一 个 给 定 的 粒度 ， 所 需 立 方 体 的 数目 会 随 着 空间 的 
维度 成 指数 型 增长 。 使 该 方法 更 实用 的 一 种 方法 是 使 用 无 监督 学 习 。 简 单 地 从 所 有 训练 数 
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据 的 实例 袋 中 将 实例 取出 ， 不 管 它 的 类 标 ， 形 成 一 个 大 的 单 实例 数据 集 ; 然后 用 大 均 值 等 
聚 类 技术 处 理 它 。 这 将 为 不 同 的 聚 类 创建 不 同 的 区 域 (如 果 使 用 的 是 均值 算法 ， 就 得 到 
5 个 区 域 ) 。 然 后 ， 如 前 文 所 述 ， 为 每 个 实例 袋 ， 在 压缩 表示 中 对 每 个 区 域 创 建 一 个 属性 。 

聚 类 是 一 个 相当 笨拙 地 从 训练 数据 中 得 到 区 域 的 方法 ， 因 为 它 忽略 了 类 成 员 的 信息 。 男 
一 种 可 选 的 方法 是 使 用 决策 树 学 习 来 划分 实例 空间 ， 这 通常 会 得 到 更 好 的 结果 。 树 的 每 片 叶 
子 都 代表 实例 空间 的 一 个 区 域 。 但 是 ， 当 每 个 实例 袋 而 不 是 单个 实例 才 有 一 个 类 标 时 ， 如 何 
学 习 一 棵 决策 树 呢 ? 可 以 使 用 4. 9 节 聚 集 输出 部 分 描述 的 方法 : 将 实例 袋 的 类 标 赋 予 它 的 每 
个 实例 。 这 就 产生 一 个 单 实例 数据 集 ， 可 用 于 决策 树 学 习 。 许 多 类 标 将 会 被 忽略 ， 整 个 多 实 
例 学 习 的 关键 在 于 ， 不 清楚 袋 层 面 的 类 标 如 何 与 实例 层面 的 类 标 相关 联 。 然 而 ， 这 些 类 标 只 
用 于 得 到 实例 空间 的 分 割 。 下 一 步 是 将 多 实例 数据 集 转换 成 单 实例 数据 集 ， 该 单 实例 数据 集 
代表 了 每 个 袋 中 的 实例 在 整个 实例 空间 中 的 分 布 。 然 后 ， 应 用 另 一 个 单 实例 学 习 方 法 (也许 
还 是 决策 树 学 习 ) ， 确 定 在 压缩 的 表示 〈 对 应 于 原始 空间 的 区 域 ) 中 单个 属性 的 重要 性 。 

使 用 决策 树 和 聚 类 会 得 到 “ 硬 ” 划 分 边界 ， 即 实例 要 么 属于 要 么 不 属于 该 区 域 。 使 用 
距离 函数 ， 结 合 一 些 参 照 点 ， 将 实例 分 配 到 离 它 最 近 的 参照 点 ， 这 样 也 可 以 得 到 一 个 划 
分 。 它 隐 含 地 将 空间 划分 成 区 域 ， 每 个 参照 点 对 应 于 一 个 区 域 (KRE, KEE k HER 
类 所 做 的 : 聚 类 中 心 就 是 参照 点 ) 。 但 是 没有 什么 重要 的 理由 将 它 限制 到 硬 边界 上 : 我 们 
可 以 使 用 距离 〈 转 换 成 相似 性 得 分 ) 使 得 区 域 隶 属 函数 变 “ 软 " ， 以 此 来 计算 实例 袋 的 压 
缩 表 示 中 的 属性 值 。 所 需要 的 只 是 一 种 将 每 个 袋 之 间 的 相似 性 得 分 聚集 的 方法 ， 例 如 可 以 
取 袋 中 每 个 实例 和 参照 点 之 间 相似 性 的 最 大 值 。 

在 最 简单 的 情况 下 ， 训 练 集中 的 每 个 实例 都 可 以 作为 参照 点 。 这 会 在 压缩 的 表示 中 创 
建 大 量 的 属性 ， 但 是 它 在 相应 的 单 实例 集中 保留 了 大 部 分 实例 袋 的 信息 。 该 方法 已 经 被 广 
泛 用 于 多 实例 学 习 问题 中 。 

不 管 该 方法 是 如 何 实现 的 ， 基 本 思想 是 通过 描述 该 实例 袋 在 实例 空间 中 的 距离 分 布 将 实 
例 袋 转换 为 单个 实例 。 或 者 ， 也 可 以 通过 将 输出 而 不 是 输入 聚集 ， 将 一 般 的 学 习 方 法 应 用 于 
多 实例 问题 中 。4. 9 节 描 述 了 一 种 简单 的 方式 : 将 袋 层次 的 类 标 赋 予 袋 中 的 实例 ， 这 样 就 把 
袋 中 的 实例 联合 在 一 起 形成 了 一 个 单独 的 数据 集 ， 或 许 还 可 以 为 每 个 实例 袋 赋予 相同 的 总 权 
值 ， 袋 内 的 每 个 实例 平分 该 总 权 值 。 然 后 就 可 以 建立 一 个 单 实例 分 类 模型 。 在 分 类 时 ， 将 每 
个 单独 实例 的 预测 值 组 合 ， 例 如 可 以 取 每 类 预测 概率 的 平均 值 ， 得 到 最 终 的 预测 结果 。 

尽管 该 方法 在 实践 中 效果 不 错 , 但 是 将 类 层次 的 类 标 赋予 实例 的 做 法 是 过 分 简化 的 。 
通常 ， 在 多 实例 学 习 中 ,假设 只 有 部 分 实例 (或 者 只 有 一 个 ) 决定 了 该 实例 袋 的 类 标 。 如 
何 修改 类 标 以 得 到 对 于 真正 情况 的 更 精确 的 表示 呢 ? 这 显然 是 一 个 困难 的 问题 。 如 果 解 决 
了 该 问题 ， 就 不 必 研 究 其 他 多 实例 学 习 方法 了 。 实 际 应 用 的 一 种 方法 是 迭代 : 首先 将 每 个 
实例 的 袋 类 标 赋 给 它 ， 然 后 用 单 实 例 分 类 模型 的 预测 类 标 来 替换 该 实例 的 类 标 。 重 复 整 个 
过 程 直至 类 标 在 两 次 迭代 过 程 中 不 变 。 

为 了 得 到 合理 的 结果 ， 还 需 注意 一 些 问题 。 例 如 ,假设 袋 中 的 每 个 实例 的 类 标 都 与 袋 
的 类 标 不 同 。 这 个 问题 可 以 通过 强制 袋 中 至 少 有 一 个 实例 〈 例 如 ， 可 以 是 对 于 该 类 的 预测 
概率 最 大 的 实例 ) 的 类 标 与 袋 的 类 标 相同 来 解决 。 

已 经 有 人 研究 用 这 个 迭代 方法 来 解决 原始 的 多 实例 场景 的 二 类 问题 ， 只 有 妆 袋 中 有 和 且 
只 有 一 个 实例 是 正 例 时 袋 才 是 正 例 。 在 这 种 情况 下 ,假设 所 有 来 自负 例 袋 中 的 实例 都 是 真 
负 例 ， 并 且 只 修改 来 自 正 例 袋 的 实例 的 类 标 ， 这 是 有 道理 的 。 预 测 时 ， 只 要 袋 中 的 一 个 实 
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例 是 正 例 ， 那 么 该 袋 就 标 为 正 例 。 
6. 10.2 升级 学 习 算 法 


通过 修改 输入 或 输出 实现 用 单 实例 学 习 算 法 处 理 多 实例 学 习 问 题 ， 这 是 很 有 吸引 力 
的 ， 因 为 大 量 的 技术 可 以 直接 使 用 而 不 必 做 任何 修改 。 但 是 ， 这 也 许 不 是 最 有 效率 的 方 
法 。 另 一 种 选择 是 修改 单 实例 学 习 算 法 内 部 ， 使 它们 应 用 于 多 实例 的 情况 。 如 果 一 个 算法 
只 通过 距离 〈 或 相似 性 ) 函数 来 考虑 数据 〈 如 最 近邻 分 类 器 或 支持 向 量 机 ) ， 那 么 就 可 以 
用 相当 优雅 的 方式 实现 对 算法 的 修改 。 这 可 以 通过 为 多 实例 数据 提供 一 个 距离 (或 相似 
ME) 函数 计算 两 个 实例 袋 之 间 的 得 分 来 实现 。 

对 于 基于 核 的 方法 〈 如 支持 向 量 机 ) ， 相 似 性 必须 是 一 个 满足 特定 数学 特性 的 核 隐 数 。 
用 于 多 实例 数据 的 一 个 核 函 数 是 集合 核 (set kernel) 。 给 定 一 个 用 于 单 实例 数据 的 支持 向 
量 机 实例 对 之 间 的 核 函数 (如 6.4 节 中 提 到 的 核 函数 中 的 一 种 ) ， 集 合 核对 两 个 实例 袋 间 
所 有 实例 对 的 核 函 数 的 计算 结果 进行 累加 。 

可 以 使 用 Hausdorff 距离 的 变 体 ( 该 距离 是 为 点 集 定义 的 ) 以 便 使 最 近邻 学 习 适 用 于 
多 实例 数据 。 给 定 两 个 实例 袋 和 实例 对 之 间 的 距离 函数 〈 如 欧 几 里 得 距离 ) ， 两 个 袋 之 间 
的 Hausdorff 距离 是 从 一 个 袋 中 的 任何 实例 到 另 一 个 袋 中 离 它 最 近 的 实例 的 最 大 距离 。 可 
以 使 用 第 n 大 距离 代替 最 大 距离 ， 使 其 对 于 离 群 点 更 具有 健壮 性 。 

对 于 不 基于 相似 性 评分 的 学 习 算 法 ， 要 将 它们 升级 以 适合 多 实例 数据 ， 则 需要 更 多 的 
工作 。 现 在 已 经 有 关于 规则 学 习 和 决策 树 学 习 的 多 实例 算法 ,但 是 我 们 不 会 在 这 里 讨论 。 
如 果 算 法 关心 的 只 是 一 个 数值 型 的 优化 策略 ， 则 该 优化 策略 通过 在 训练 数据 上 最 小 化 一 个 
损失 函数 从 而 应 用 到 一 些 函 数 的 参数 ， 那 么 调整 算法 以 适应 多 实例 的 情况 就 变 得 直接 多 
To Logistic 回归 (314.6 节 ) 和 多 层 感 知 机 〈 见 6.4 节 ) 就 属于 这 种 情况 。 两 者 都 可 以 
通过 增加 一 个 对 实例 层次 的 预测 进行 聚集 的 函数 来 实现 多 实例 学 习 。 所 谓 的 “ 软 最 大 值 ” 
是 一 个 适合 该 情况 的 可 微 函数 : 它 对 实例 的 预测 结果 进行 聚集 ， 将 实例 预测 结果 的 〈 软 ) 
最 大 值 作为 袋 层次 的 预测 值 。 


6. 10.3 专用 多 实例 方法 


有 些 多 实例 学 习 方 案 不 是 直接 基于 单 实例 算法 的 。 这 里 是 一 个 专门 用 于 2.2 节 中 提 到 
的 药物 活性 预测 问题 的 早期 技术 ， 实 例 是 一 个 又 一 个 分 子 构 成 的 〈 即 一 个 袋 )， 当 且 仅 当 
它 至 少 有 一 个 活 既 成 分 时 ， 才 认为 它 是 正 例 。 基 本 的 想法 是 ， 学 习 一 个 超 和 矩形， 该 超 矩 形 
至 少 包 含 训 练 数据 中 的 每 个 正 例 袋 的 一 个 实例 ， 并 且 不 包含 任何 来 自负 例 袋 的 实例 。 这 样 
的 一 个 矩形 围 出 了 所 有 正 例 袋 都 重 伙 的 实例 空间 的 区 域 ,但 是 它 不 包含 负 例 (活跃 分 子 经 
常 出 现 , 但 非 活 路 分 子 不 出 现 的 区 域 )。 最 初 考虑 的 特定 药物 活性 数据 是 高 维 的， 每 个 实 
例 有 166 个 属性 。 这 种 情况 下 ， 很 难 通过 计算 找到 合适 的 超 矩 形 。 因 此 针对 这 个 特定 的 问 
题 ， 提 出 了 一 个 启发 式 方法 。 

也 可 以 使 用 其 他 的 形状 代替 超 矩 形 。 事 实 上 ， 同 样 的 基本 思想 也 应 用 到 了 超 球面 CER 
体 ) 上 。 训 练 实例 被 看 做 潜在 的 球 心 。 在 训练 数据 的 所 有 袋 中 ， 为 每 个 球 心 找到 产生 最 小 
错误 数 的 半径 。 使 用 原始 的 多 实例 假设 来 做 预测 : 当 且 仅 当 一 个 袋 在 球 内 至 少 包含 一 个 实 
例 时 ， 该 袋 才 被 分 类 为 正 例 。 单 个 球 通常 不 能 得 到 一 个 好 的 分 类 性 能 。 然 而 ， 该 方法 不 是 
独立 工作 的 。 建 议 将 它 作 为 一 个 “ 弱 学 习 器 ”， 与 提升 算法 〈( 见 8.4 节 ) 一 起 使 用 ， 得 到 
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一 个 强大 的 联合 分 类 器 〈 球 的 集合 体 ) 。 

到 目前 为 止 ， 我 们 讨论 的 专用 多 实例 方法 都 是 硬 决策 边界 的 : 一 个 实例 要 么 落 在 球体 
或 超 矩 形 的 内 部 ， 要 么 落 在 球体 或 超 和 矩形 的 外 部 。 其 他 的 多 实例 算法 使 用 以 概率 表示 的 软 
概念 来 描述 。 多 样 性 密度 (diverse- density) 方法 就 是 一 个 典型 的 例子 ， 该 方法 在 设计 时 就 
考虑 到 了 多 实例 假设 。 它 最 基本 和 最 常用 的 形式 是 在 实例 空间 中 学 习 一 个 参照 点 。 通 过 实 
例 和 参照 点 之 间 的 距离 计算 该 实例 是 正 例 的 概率 : 如 果实 例 与 参照 点 相同 ， 概 率 为 1， 并 
且 随 着 实例 与 参照 点 之 间距 离 的 增加 ， 概 率 值 会 逐渐 减 小 ， 这 通常 是 基于 一 个 钟 形 函 数 。 

一 个 袋 是 正 例 的 概率 是 将 其 包含 所 有 实例 的 单个 概率 组 合 得 到 的 ， 通 常 使 用 “mnoisy- 
OR" 函数 来 进行 组 合 。 这 是 一 个 逻辑 OR 的 概率 版 本 。 如 果 所 有 实例 层次 的 概率 都 为 0， 
noisy- OR 函数 的 值 为 〈 即 袋 层 次 的 概率 ) 0; 如 果 至 少 有 一 个 实例 层 的 概率 为 1， 函数 值 
为 1; 其 他 情况 ， 函 数值 为 0~1 之 间 。 

多 样 性 密度 定义 为 训练 数据 中 袋 的 类 标的 概率 ， 它 是 基于 这 个 概率 模型 计算 的 。 与 前 
面 讨论 的 两 个 集合 方法 一 样 ， 当 参照 点 位 于 正 例 袋 重奏 是 没有 负 例 袋 的 区 域 时 ， 多 样 性 密 
度 达到 最 大 值 。 数 值 优化 过 程 ， 如 梯度 上 升 ， 可 以 用 来 找到 使 多 样 性 密度 最 大 的 参照 点 。 
除了 参照 点 的 位 置 外 ， 多 样 性 密度 的 实现 也 优化 了 每 个 维度 距离 函数 的 规模 ， 因 为 通常 不 
是 所 有 的 属性 都 是 同等 重要 的 。 这 可 以 显著 提高 预测 性 能 。 





6. 10.4 讨论 


将 输入 数据 聚集 信息 得 到 汇总 统计 ， 这 是 在 多 关系 学 习 中 的 一 个 著名 技术 ，Krogel 和 
Wrobel (2002) 提出 的 RELAGGS 中 使 用 了 该 技术 。 多 实例 学 习 可 以 看 做 是 更 一 般 情形 
(de Raedt, 2008) 的 一 个 特例 。 将 简单 的 汇总 统计 替换 为 基于 区 域 的 属性 ， 这 个 思想 起 源 
于 对 实例 空间 的 划分 ， 是 由 Weidmann 等 (2003) 以 及 Zhou 和 Zhang (2007) 提出 的 。 使 
用 参照 点 来 压缩 实例 袋 是 Chen 等 (2006) 提出 的 ，Foulds ffl Frank (2008) 在 更 广泛 的 环 
境 中 评估 了 该 方法 。Andrews 等 (2003) 提出 为 学 习 一 个 基于 原始 多 实例 假设 的 支持 向 量 
机 分 类 器 ,使 用 迭代 学 习 过 程 来 改变 类 标 。 

基于 Hausdorff 距离 变 体 的 最 近邻 学 习 是 Wang 和 Zucker (2000) 提出 的 。Giirtner 等 
(2002) 实现 了 使 用 集合 核 为 多 实例 数据 学 习 一 个 支持 向 量 机 分 类 器 。 针 对 规则 和 决策 树 
的 多 实例 算法 (未 包含 在 本 书 中 ) 是 由 Chevaleyre 和 Zucker (2001) 以 及 Blockeel 等 
(2005) 提出 的 。Xu 和 Frank (2004) 以 及 Ray 和 Craven (2005) 提出 了 用 于 多 实例 学 习 
的 Logistic 回归 ，Ramon 和 de Raedt (2000) 提出 了 适合 多 实例 的 多 层 感 知 机 。 

Dietterich 等 〈1997) 以 及 Auer 和 Ortner (2004) 分 别 描述 了 用 于 多 实例 学 习 的 超 算 
形 和 超 球 面 的 概念 。 多 样 性 密度 方法 是 Maron (1998) 博士 论文 的 主题 ，Maron 和 Lozano- 
Peréz (1997) 也 描述 了 该 方法 。 

在 多 实例 学 习 的 文献 中 ， 根 据 要 学 习 的 概念 做 了 许多 不 同 的 假设 ， 例 如 ， 袋 层次 和 实 
例 层次 的 类 标 是 如 何 相 关联 的 ， 开 始 时 假设 当 且 仅 当 袋 中 只 有 一 个 实例 是 正 例 袋 才 标记 为 
正 例 。Foulds 和 Frank (2010) 回顾 了 多 实例 学 习 中 的 这 些 假设 。 


6.11 Weka 实现 
对 于 分 类 器 ， 见 11.4 节 和 表 11-5。 对 于 聚 类 方法 ， 见 11.6 节 和 表 11-7。 
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决策 树 : 

o J48 (C4.5 的 实现 ) 

© SimpleCart (如 CART， 最 小 化 成 本 -复杂 度 前 枝 ) 
© REPTree (减少 - 误差 剪 枝 ) 

分 类 规则 : 

o JRip (RIPPER 规则 学 习 器 ) 

© Part (从 局 部 决策 树 形 成 规则 ) 

e Ridor〈( 涟 波 下 降 规 则 学 习 器 ) 

关联 规则 ( 见 11.7 节 和 表 11-8): 

o FPGrowth (频繁 模式 树 ) 

9 GeneralizedSequentialPatterns (在 序列 数据 中 找到 最 大 项 集 树 ) 
线性 模型 及 扩展 : 

© SMO 及 其 他 支持 向 量 机 变 体 

© LibSVM (使 用 第 三 方 的 libsvm JÆ) 

o MultilayerPerceptron 

o RBFNetwork (4% [n] XE PR P] ) 

9 SPegasos (使 用 随机 梯度 下 降 的 SVM) 

基于 实例 的 学 习 ， 

© IBk (天 近 邻 分 类 器 ) 

o KStar ( 泛 化 距离 函数 ) 

o° NNge (4JEiZ 1b) 

数值 预测 ; 

o MSP (模型 树 ) 

© MSRules (从 模型 树 生成 规则 ) 

° LWL (局 部 加 权 学 习 ) 

贝 叶 斯 网 络 : 

o BayesNet 

e AODE, WAODE (平均 单 依赖 估计 器 ) 

RK: 

o XMeans 

© Cobweb (包括 Classit ) 

o EM 

多 实例 学 习 : 

o° MISVM (通过 重新 标记 实例 学 习 SVM 的 迭代 方法 ) 
o MISMO (多 实例 核 的 SVM) 

© CitationKNN (使 用 Hausdorff 距离 的 最 近邻 方法 ) 
o MILR (多 实例 数据 Logistic 回归 ) 

? MIOptimalBall (为 多 实例 分 类 学 习 球 体 ) 

o MIDD (使 用 noisy- OR 函数 的 多 样 性 密度 方法 ) 
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在 第 6 章 中 我 们 考察 了 大 量 的 机 器 学 习 方法 : 决策 树 、 分 类 和 关联 规则 、 线 性 模型 、 
基于 实例 的 方案 、 数 值 预测 技术 、 贝 叶 斯 网 络 、 聚 类 算法 以 及 半 监 督 和 多 实例 学 习 。 所 有 
这 些 方法 都 是 合理 、 成 熟 的 技术 ， 可 用 于 解决 实际 的 数据 挖掘 问题 。 

但 是 成 功 的 数据 挖掘 远 不 只 是 选择 某 种 学 习 算法 并 应 用 于 数据 。 许 多 学 习 算法 需要 用 
到 各 种 不 同 的 参数 ， 需 要 选择 合适 的 参数 值 。 在 大 多 数 情况 下 ， 选 择 适 当 的 参数 可 以 使 所 
获 结 果 得 到 显著 改善 ， 而 合适 的 选择 则 是 要 视 手 头 的 具体 数据 而 定 的 。 例 如 ， 决 策 树 可 以 
选择 剪 枝 或 不 剪 枝 ， 选 择 前 者 又 需要 选择 剪 枝 参 数 。 在 基于 实例 的 上 最 近邻 学 习 方 法 中 ， 
需要 选择 大 值 。 更 为 常见 的 是 ， 需 要 从 现 有 的 方案 中 选择 学 习 方 法 本 身 。 在 所 有 情况 下 ， 
合适 的 选择 是 由 数据 决定 的 。 

在 数据 上 尝试 几 种 不 同 的 方法 ， 并 使 用 几 种 不 同 的 参数 值 ， 然 后 观测 哪 种 情况 结果 最 
好 ， 是 个 诱 人 的 方法 。 不 过 要 当心 ! 最 佳 选择 并 不 一 定 是 在 训练 数据 上 获得 最 好 结果 的 那 
个 。 我 们 曾 反 复 提醒 要 注意 过 度 拟 合 问题 ， 过 度 拟 合 是 指 一 个 学 习 模 型 与 用 于 建 模 的 某 个 
具体 训练 数据 集 太 过 匹配 。 假 设 在 训练 数据 上 所 表现 的 正确 性 能 代表 模型 将 来 应 用 于 实践 
中 的 新 数据 上 的 性 能 水 准 ， 这 个 想法 是 不 正确 的 。 

幸运 的 是 ， 在 第 5 章 中 我 们 已 经 讨论 了 对 于 这 个 问题 的 解决 方法 。 有 两 种 较 好 的 方法 
可 用 来 估计 一 个 学 习 方 法 的 预期 真实 性 能 : 在 数据 源 充足 的 情况 下 ， 使 用 一 个 与 训练 数据 
集 分 离 的 大 数据 集 ; 在 数据 较 少 的 情况 下 ， 则 使 用 交叉 验证 法 (5.3 节 )。 在 后 一 种 情况 
下 ， 在 实践 中 的 典型 应 用 方法 是 单 次 的 10 折 交 叉 验 证 ， 当 然 要 得 到 更 为 可 靠 的 估计 需要 
将 整个 过 程 重 复 10 次 。 一 旦 为 学 习 方 法 选 定 了 合适 的 参数 ， 就 可 以 使 用 整个 训练 集 CRI 
所 有 训练 实例 ) 来 生成 将 要 应 用 于 新 数据 的 最 终 学 习 模型 。 

注意 在 调整 过 程 中 使 用 所 选 的 参数 值得 到 的 性 能 表现 并 不 是 对 最 终 模型 性 能 的 一 个 可 
靠 估计 ， 因 为 最 终 模 型 对 于 调整 中 使 用 的 数据 有 过 度 拟 合 的 倾向 。 要 确定 它 的 性 能 究竟 如 
何 ， 需 要 另外 一 个 大 的 数据 集 ， 这 个 数据 集 必 须 与 学 习 过 程 和 调整 过 程 中 所 使 用 的 数据 隔 
离开 来 。 在 进行 交叉 验证 时 也 是 如 此 ， 参 数 调整 过 程 需 要 一 个 “内 部 ”交叉 验证 ， 误 差 估 
计 还 需要 一 个 “外 部 ”交叉 验证 。 采 用 10 折 交 叉 验 证 法 将 使 学 习 方法 运行 100 次 。 总 而 
言 之 ， 当 评估 一 个 学 习 方 案 的 性 能 时 ， 所 进行 的 任何 参数 调整 过 程 都 应 被 看 做 是 训练 过 程 
不 可 分 割 的 一 部 分 。 

当 把 机 器 学 习 技 术 应 用 于 实际 的 数据 挖掘 问题 时 ， 还 有 其 他 一 些 重要 过 程 可 以 大 大 提 
高 成 功率 ， 这 正 是 本 章 的 主题 。 它 们 形成 了 一 种 (操纵 ) 数据 的 技术 ， 将 输入 数据 设计 成 
一 种 能 适合 所 选 学 习 方 案 的 形式 ， 将 输出 模型 设计 得 更 为 有 效 。 可 以 把 它们 看 成 是 能 应 用 
于 实际 数据 挖掘 问题 以 提高 成 功率 的 一 些 诀窍。 有 时 奏效 ， 有 时 无 效 。 根 据 目 前 的 技术 发 
展 水 平 ， 很 难 预言 它们 是 否 有 用 。 在 这 种 以 反复 实验 作为 最 为 可 靠 的 指导 的 领域 中 ， 特 别 
重要 的 丽 怕 就 是 灵活 运用 并 且 理 解 这 些 诀 穿 了 。 

本 章 提出 了 6 种 不 同 的 方法 来 对 输入 数据 进行 预 处 理 使 其 更 适合 于 学 习 方法 : 属性 选 
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择 、 属 性 离散 化 、 数 据 投影 、 抽 样 、 数 据 清洗 、 多 分 类 问题 转化 为 多 个 二 分 类 问题 。 首 先 
来 考虑 属性 选择 。 在 许多 实际 情况 中 ， 有 太 多 的 属性 需要 学 习 方 案 进行 处 理 ， 其 中 部 分 或 
绝 大 多 数 属性 是 明显 无 关 或 元 余 的 。 因 此 ， 需 要 对 数据 进行 预 处 理 ， 从 中 挑选 出 一 个 属性 
子 集运 用 于 学 习 中 。 当 然 ， 学 习 方案 本 身 也 会 进行 适当 的 属性 选择 ， 忽 略 无 关 的 和 宛 余 的 
属性 ， 然 而 实际 中 通过 预选 常常 能 显著 提高 其 性 能 。 例 如 ， 实 验 显 示 ， 增 加 无 用 的 属性 会 
导致 诸如 决策 树 和 规则 、 线 性 回归 、 基 于 实例 学 习 器 以 及 聚 类 等 学 习 方法 的 性 能 变 糟 。 

如 果 任 务 涉及 数值 属性 而 所 选 的 学 习 方 案 只 能 处 理 分 类 问题 ， 数 值 属性 的 离散 化 就 是 
绝对 必要 的 。 如 果 将 属性 进行 预 离 散 化 处 理 ， 即 使 是 能 够 处 理 数值 属性 的 方案 ， 也 经 常 能 
获得 更 好 的 结果 或 工作 更 加 迅速 。 反 过 来 ， 也 有 需要 将 类 别 属性 表示 为 数字 形式 (虽然 不 
常见 ) 的 情况 ， 我 们 将 讨论 适用 于 这 种 情况 的 技术 。 

数据 投影 包含 很 多 技术 。 曾 经 在 第 2 章 的 关系 数据 以 及 第 6 章 的 支持 向 量 机 中 遇 到 过 
一 种 投影 技术 ， 它 增加 新 的 合成 属性 ， 目 的 是 将 现 有 的 信息 表现 成 一 种 适合 机 器 学 习 方案 
的 形式 。 那 些 不 那么 依赖 于 特定 数据 挖掘 问题 语义 的 更 为 通用 的 技术 包括 : 主 成 分 分 析 和 
随机 投影 。 同 时 本 章 还 涵盖 了 用 于 回归 问题 的 数据 投影 技术 一 一 偏 最 小 二 乘 回归 。 

抽样 输入 在 实际 的 数据 挖掘 应 用 中 是 十 分 重要 的 步骤 ， 同 时 这 是 唯一 可 以 处 理 真正 大 
规模 问题 的 方法 。 尽 管 抽样 是 相当 简单 的 ， 但 本 章 仍 有 一 简短 的 节 介绍 抽样 技术 ， 其 中 包 
括 一 种 在 事前 不 知道 数据 集 的 总 大 小 的 情况 下 ， 逐 步 产生 给 定 大 小 的 随机 样本 的 方法 。 

不 清洁 的 数据 困扰 着 数据 挖 据 工作。 第 2 章 曾 强调 认识 数据 的 必要 性 ， 了 解 所 有 不 同 
属性 的 含义 、 对 属性 进行 编码 所 使 用 的 惯例 、 缺 失 值 及 重复 数据 的 意义 、 测 量 噪声 、 排 版 
印刷 错误 以 及 系统 误差 ， 甚 至 是 蓄意 为 之 的 错误 。 各 种 简单 的 可 视 化 经 常 有 助 于 解决 这 类 
问题 。 然 而 ， 也 有 一 些 自动 清理 数据 、 自 动 识 别离 群 点 以 及 自动 发 现 异 常 的 方法 ， 我 们 所 
讨论 的 这 些 方法 中 包括 一 种 称 为 一 分 类 学 习 (one-class learning). 的 技术 ， 它 指 在 训练 时 
只 有 一 类 实例 可 用 。 

最 后 ， 考 察 那些 精炼 学 习 方案 输出 的 技术 ， 这 些 学 习 方案 是 通过 反复 校准 估计 所 得 的 
结果 来 估计 学 习 方案 所 得 分 类 的 概率 。 尽 管 这 可 以 提高 分 类 性 能 ， 但 面 对 成 本 敏感 的 分 类 
问题 和 那些 需要 精确 概率 的 问题 时 ， 这 些 精炼 技术 就 显得 特别 重要 。 


7.1 属性 选择 


多 数 机 器 学 习 算 法 都 被 设计 为 要 学 习 哪些 属性 最 适用 于 做 决策 。 例 如 ， 决 策 树 是 在 
每 个 结 点 挑选 最 有 希望 成 功 的 属性 进行 分 裂 ， 从 理论 上 讲 ， 决 不 选择 无 关 的 或 者 无 用 的 
属性 。 属 性 越 多 ， 理 论 上 会 导致 更 强 而 不 是 更 差 的 识别 能 力 。“ 理 论 上 和 实践 中 有 何 差 
别 ?” 这 是 个 老 问题 。 管 案 是 : “从 理论 上 看 ， 理 论 和 实践 没有 差别 ， 但 在 实践 中 有 差 
Ho” 这 里 也 一 样 ， 在 实践 中 ， 往 数据 集 里 添加 无 关 或 干扰 属性 ， 经 常 使 机 器 学 习 系 统 

决策 树 学 习 器 (04.5) 的 实验 显示 ， 往 标准 数据 集中 添加 一 个 随机 的 二 元 属性 ( 属 
性 值 由 抛掷 无 偏 硬 币 产生 ) ， 会 影响 分 类 性 能 ， 导 致 性 能 变 差 (在 这 种 测试 情形 中 下 降 了 
5% ~10% )。 变 差 的 原因 是 在 树 的 某 些 结 点 处 ， 这 个 无 关 的 属性 被 不 可 避免 地 选择 为 决定 
分 支 的 属性 ， 导 致使 用 测试 数据 测试 时 产生 随机 误差 。 决 策 树 学 习 的 设计 是 非常 巧妙 的 ， 
能 在 每 个 结 点 挑选 最 适合 的 属性 进行 分 裂 ， 怎 么 会 发 生 这 种 情形 的 呢 ? 原因 也 很 微妙 。 随 
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着 程序 渐渐 向 树 的 下 层 运 行 ， 能 对 属性 选择 决策 有 帮助 的 数据 变 得 越 来 越 少 。 在 某 个 结 
点 ， 数 据 极 少 ， 随 机 属性 碰巧 看 起 来 较 好 。 由 于 每 层 的 结 点 数量 是 随 层 数 按 指数 级 增加 
的 ， 所 以 这 个 无 赖 (随机) 属性 在 某 处 看 起 来 较 好 的 概率 也 随 着 树 的 次 度 成 倍增 加 。 真 正 
的 问题 是 树 总 是 会 到 达 某 个 深度 ,那里 只 存在 少量 的 数据 可 用 于 属性 选择 。 即 使 数据 集 较 
大 ， 也 不 能 避免 这 个 问题 ， 只 是 树 可 能 更 深 而 已 。 

分 治 树 学 习 器 和 变 治 规则 学 习 器 都 存在 这 个 问题 ， 因 为 作为 判断 基础 的 数据 数量 一 直 
在 减少 。 基 于 实例 的 学 习 咒 非常 容易 受到 无 关 属 性 的 影响 ， 因 为 它们 始终 是 在 局 部 近邻 范 
围 内 工作 ， 每 个 决策 只 考虑 少数 几 个 训练 实例 就 做 出 。 实 际 上 ， 基 于 实例 的 学 习 法 要 达到 
某 个 预 设 的 性 能 水 平 ， 所 需要 的 训练 实例 数量 是 随 无 关 属 性 的 数量 按 指数 级 增加 的 。 相 
反 ， 朴 素 贝 叶 斯 不 会 将 实例 空间 分 割 成 碎片 并 忽略 无 关 属 性 。 它 假设 所 有 属性 都 是 相互 独 
立 的 ， 这 个 假设 正 适 合 〈 处 理 ) 随机 “干扰 ”属性 。 但 也 正 是 由 于 这 个 假设 ， 朴 素 贝 叶 
斯 在 另 一 方面 却 付 出 了 重大 代价 ， 其 运行 效率 会 因为 加 入 宛 余 属 性 而 受到 影响 。 

无 关 的 干扰 使 决策 树 和 规则 学 习 器 的 最 优 性 能 令 人 吃惊 地 降低 。 更 令 人 惊讶 的 是 相关 
属性 也 可 能 是 有 害 的 。 例 如 ， 假 设 在 一 个 二 分 类 数据 集中 加 入 一 个 新 的 属性 ， 大 多 数 情形 
(65%) 下 ， 这 个 属性 值 与 预测 的 类 值 是 相同 的 ， 而 其 余 情 形 则 是 相反 的 ， 这 两 种 情形 在 
数据 集中 是 随机 分 布 的 。 使 用 标准 数据 集 进 行 试验 的 结果 显示 ， 这 会 造成 分 类 正确 率 下 降 
(在 这 个 试验 情形 下 为 1% ~5% ) 。 问 题 出 在 新 属性 在 决策 树 的 上 层 就 被 ( 自然) 选中 用 
以 分 裂 。 受 此 影响 存在 于 下 层 结 点 处 可 用 的 数据 是 分 割 的 实例 集 ， 以 至 于 其 他 属性 选择 只 
能 基于 此 稀 玻 的 数据 。 

由 于 无 关 属性 在 多 数 机 器 学 习 方案 中 存在 负面 影响 ， 所 以 通常 在 学 习 之 前 先进 行 属性 
选择 ， 只 保留 一 些 最 为 相关 的 属性 ， 而 将 其 他 属性 都 去 除 。 选 择 相 关 属 性 最 好 的 方法 是 人 
工 选择 ， 它 是 基于 对 学 习 问 题 的 深入 理解 以 及 属性 的 真正 含义 而 做 出 的 选择 。 然 而 ， 自 动 
方法 也 是 很 有 用 的 。 通 过 去 除 不 适当 的 属性 以 降低 数据 的 维 数 ， 能 改善 学 习 算 法 的 性 能 。 
尽管 属性 选择 可 能 会 带 来 很 多 计算 ， 但 是 还 是 能 提高 速度 。 更 重要 的 是 ， 维 数 降低 能 形成 
一 个 更 为 紧凑 、 更 易于 理解 的 目标 概念 表达 方式 ,使 用 户 的 注意 力 集中 在 最 为 相关 的 变 
量 上 。 


7.1.1 独立 于 方案 的 选择 


选择 一 个 好 的 属性 子 集 ， 有 两 种 完全 不 同 的 方法 。 一 种 是 根据 数据 的 普遍 特性 做 出 一 个 
独立 评估 ; 另 一 种 是 采用 将 要 用 于 最 终 机 器 学 习 的 算法 来 评估 子 集 。 第 一 种 称 为 过 滤 (fl- 
ter) 方法 ， 因 为 它 是 要 在 学 习 开 始 之 前 ， 先 过 滤 属 性 集 ， 产 生 一 个 最 有 前 途 的 属性 子 集 。 第 
二 种 称 为 包装 (wrapper) 方法 ， 因 为 学 习 方 法 被 包 右 在 选择 过 程 中 。 如 果 存 在 一 个 好 方法 能 
判定 一 个 属性 与 类 选择 何 时 是 相关 的 ， 那 么 对 某 个 属性 子 集 做 独立 评估 就 很 容易 了 。 虽 然 人 
们 提出 了 多 种 不 同 的 建议 ， 但 是 目前 还 没有 一 种 能 被 一 致 接受 的 “相关 性 ”量度 。 

在 属性 选择 中 ， 一 种 简单 的 独立 于 方案 的 方法 使 用 足够 的 属性 来 分 割 实例 空间 ， 使 所 
有 的 训练 实例 在 某 种 程度 上 分 隔 开 来 。 例 如 ， 如 果 只 考虑 一 两 个 属性 ， 通 常会 有 多 个 实例 
都 含有 相同 的 属性 值 组 合 。 而 另 一 个 极端 情形 是 考虑 整个 属性 集 就 可 能 区 分 每 个 实例 ， 因 
此 不 存在 所 有 属性 值 都 相同 的 两 个 实例 〈 虽 说 不 是 必然 的 ， 但 是 数据 集 有 时 会 存在 具有 相 
同属 性 值 的 实例 却 分 属于 不 同类 的 情形 ) 。 直 观 上 ， 我 们 总 是 选择 能 区 分 所 有 实例 的 最 小 
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的 属性 集 。 这 可 以 通过 穷 举 搜索 很 容易 地 找到 ， 尽 管 这 需要 相当 大 的 计算 成 本 。 不 幸 的 
是 ， 这 个 训练 数据 集 上 有 强烈 倾斜 的 属性 集 ， 其 一 致 性 在 统计 意义 上 并 不 能 得 到 保障 ， 而 
且 可 能 会 导致 过 度 拟 合 ， 算 法 可 能 会 卷 人 不 必要 的 工作 ， 用 以 修正 由 于 某 些 噪声 数据 引起 
的 不 一 致 性 。 

机 器 学 习 算法 可 用 于 属性 选择 。 例 如 ， 可 先 在 整个 数据 集 上 应 用 决策 树 算法 ， 然 后 选 
择 那 些 在 决策 树 中 真正 用 到 的 属性 。 如 果 下 一 步 只 是 创建 另 一 棵 树 ， 那 么 这 个 属性 选择 不 
会 产生 任何 效果 。 然 而 这 个 属性 选择 可 能 会 对 其 他 的 学 习 算 法 产生 影响 。 比 方 说 ， 最 近邻 
算法 很 容易 受 无 关 属 性 的 影响 ， 它 可 以 通过 先 创建 一 棵 用 于 过 滤 属 性 的 决策 树 而 使 性 能 得 
到 提高 。 最 终 的 最 近邻 方案 的 性 能 比 用 于 过 滤 的 决策 树 的 性 能 更 好 。 

再 举 一 个 例子 ， 在 第 4 章 中 提 到 的 简单 的 1 规则 (IR) 方案 ,通过 对 不 同属 性 分 支 
的 效果 进行 评估 ， 可 用 于 决策 树 学 习 器 的 属性 选择 CRIT, IR 这 样 的 基于 误差 的 方法 
也 许 不 是 属性 排序 的 理想 选择 ， 我 们 将 在 下 面 讨论 有 监督 的 离散 化 的 相关 问题 时 看 到 这 
点 ) 。 通 常 只 用 排 在 前 两 三 位 的 属性 构建 的 决策 树 也 能 达到 同样 好 的 性 能 ， 并 且 这 棵 树 更 
容易 理解 。 在 这 个 方法 中 ， 需 要 用 户 决 定 使 用 多 少 属性 来 构建 这 棵 决策 树 。 

另 一 个 可 行 的 算法 是 建立 一 个 线性 模型 ， 比 如 一 个 线性 支持 向 量 机 ， 根 据 系数 的 大 小 
来 进行 属性 排序 。 一 种 更 为 精密 复杂 的 方法 是 将 这 个 算法 重复 运行 。 先 建立 一 个 模型 ， 根 
据 系数 进行 属性 排序 ， 将 排 在 最 低位 的 属性 移 除 ， 然 后 重复 这 个 过 程 直到 所 有 属性 都 被 移 
除 。 与 只 用 单个 模型 进行 属性 排序 的 方法 相 比较 ， 这 种 递归 特征 消除 (recursive feature 
elimination) 的 方法 应 用 于 某 些 数据 集 上 (如 识别 重要 基因 用 于 癌症 分 类 ) 能 获得 更 好 的 
结果 。 对 于 这 两 种 方法 来 说 ， 保 证 属性 具有 相同 的 度量 标准 是 很 重要 的 ， 否 则 这 些 系数 是 
不 可 比 的 。 注 意 这 些 技 术 只 是 用 于 产生 一 个 属性 排序 ， 还 必须 应 用 其 他 技术 来 决定 将 要 使 
用 的 适当 的 属性 数量 。 

还 可 以 使 用 基于 实例 的 学 习 方法 来 进行 属性 选择 。 从 训练 集中 随机 抽样 ， 检 查 近 邻 的 同 
类 和 不 同类 实例 记录 ， 即 “近邻 命中 ” (near hit) 和 “近邻 缺失 ” (near miss) 。 如 果 近 邻 击 
中 的 某 个 属性 有 不 同 的 值 ， 这 个 属性 看 来 似乎 是 不 相关 的 ， 那 么 它 的 权 值 就 要 降低 。 男 一 方 
面 ， 如 果 近 邻 缺 失 的 某 个 属性 有 不 同 的 值 ， 这 个 属性 看 来 是 相关 的 ， 那么 它 的 权 值 就 要 增 
加 。 这 是 基于 实例 学 习 的 属性 加 权 的 标准 处 理 方法 ,在 6.5 节 中 曾 描述 过 。 在 这 个 操作 过 程 
重复 多 次 后 ， 就 进行 选择 操作 : 只 选择 权 值 为 正 数 的 属性 。 在 基于 实例 学 习 中 的 标准 增 量 公 
式 里 ， 由 于 样本 排列 的 次 序 不 同 ， 所 以 每 次 重复 过 程 都 会 得 到 不 同 的 结果 。 这 点 可 以 通过 使 
用 所 有 的 训练 实例 并 考虑 每 个 实例 所 有 的 近邻 命中 和 近邻 缺失 来 避免 。 

这 种 方法 的 一 个 更 为 严重 的 缺点 是 无 法 探测 出 元 余 属 性 ， 因 为 它 与 另 一 个 属性 是 相关 
的 。 极 端的 情形 是 ， 两 个 相同 的 属性 被 同样 的 方式 处 理 ， 不 是 都 被 选择 就 是 都 不 被 选择 。 
有 人 提出 了 一 种 修正 方法 似乎 有 助 于 这 个 问题 的 解决 ， 即 在 计算 最 近邻 命中 和 缺失 时 考虑 
当前 的 属性 权 值 。 


既 消除 无 关 属 性 也 消除 重复 属性 的 另 一 种 方法 就 是 选择 一 个 属性 子 集 ， 其 中 各 属 
性 与 类 有 较 大 的 相关 性 但 属性 内 部 几乎 无 相关 性 。 两 个 名 目 属 性 4 和 B 之 间 的 关系 可 
用 对 称 不 确定 性 (symmetric uncertainty). 来 衡量 : 

H(A) * H(B) - H(A,B) 

H(A) + H(B) 





7 


U(A,B) =2 
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H $E 4.3 节 中 讲述 的 和 函 数 。 焙 是 以 每 个 属性 值 的 概率 为 基础 的 ; H(A, B) 是 4 和 B 
WKAR, A 和 B 的 所 有 组 合 值 的 联合 概率 计算 出 来 。 
对 称 不 确定 性 总 是 在 0 ~1 之 间 。 基 于 相关 性 (correlation-based) 的 特征 选择 决定 


了 一 个 属性 集 的 优良 性 : 

2. U(4,C)/ PS b U(A;,A;) 
这 里 C 是 类 属性 ， 下 标 i lj] 包括 属性 集 里 的 所 有 属性 。 假 设 子 集 中 有 m 个 属性 与 类 属 
性 及 另 一 属性 密切 相关 ， 分子 就 为 m， 分 母 为 Vm ， 亦 即 m。 因 此 得 到 最 大 值 为 1 
(最 小 值 为 0) 。 显 然 这 不 理想 ， 因 为 我 们 要 避免 宛 余 属性 。 然 而 这 个 属性 集中 的 任何 
子 集 都 会 有 测量 值 为 1 的 情况 。 当 使 用 这 个 标准 来 寻找 一 个 好 的 属性 子 集 时 ， 就 需要 
最 小 属性 子 集 来 打破 这 个 约束 。 
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7. 1.2 搜索 属性 空间 


属性 选择 的 大 多 数 方法 都 要 涉及 在 属性 空间 搜索 最 有 可 能 做 出 最 好 类 预测 的 属性 子 
集 。 图 7-1 展示 了 大 家 最 熟悉 的 天 气 数据 的 属性 空间 。 可 能 的 属性 子 集 数 目 随 属性 数量 的 
增加 呈 指 数 增长 ， 使 得 穷 举 搜索 不 切实 际 ， 它 只 适合 最 简单 的 问题 。 
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图 7-1 天 气 数据 集 的 属性 空间 


基本 上 ， 搜 索 方 向 是 两 个 方向 中 的 一 个 ， 即 图 7-1 中 从 上 向 下 或 者 从 下 向 上 。 在 每 个 
阶段 ， 通 过 增加 或 删除 一 个 属性 来 局 部 改变 目前 的 属性 子 集 。 朝 下 的 方向 ， 开 始 时 不 含 任 
何 属性 ， 然 后 每 次 增加 一 个 ， 称 为 正 向 选择 (forward selection) 。 朝 上 的 方向 ， 开 始 时 包 
含 了 所 有 属性 ， 然 后 每 次 减少 一 个 ， 称 为 反 向 删除 (backward elimination ) 。 
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在 正 向 选择 时 ， 每 个 当前 子 集 没有 包含 的 属性 被 暂时 加 入 ， 然 后 对 结果 子 集 的 属性 进 
行 评 佑 ， 壁 如 使 用 下 一 节 中 阐述 的 交叉 验证 。 评 估 产 生 一 个 数字 结果 用 于 衡量 子 集 的 期 望 
性 能 。 通 过 这 个 方法 对 依次 添加 的 每 个 属性 所 产生 的 效果 进行 量化 ， 选 择 其 中 最 好 的 ， 然 
后 继续 进行 。 如 果 目 前 的 子 集中 添加 任何 一 个 属性 都 不 能 有 改善 ， 就 终止 搜索 。 这 是 一 个 
标准 的 贪心 搜索 程序 ， 它 能 保证 找到 一 个 局 部 〈 而 不 一 定 是 全 局 ) 的 最 优 属性 集 。 

反 向 删除 操作 采用 完全 类 似 的 模式 。 在 这 两 种 情形 中 ， 对 于 较 小 的 属性 集 经 常 引 入 一 
个 微小 偏差 〈 即 倾向 于 选择 较 小 的 属性 集 ) 。 在 正 向 选择 中 ， 如 果 要 继续 搜索 ， 评 估 值 的 
增加 必须 要 超出 某 个 预先 设 定 的 最 小 增 量 。 对 于 反 向 删除 也 采用 类 似 的 方法 。 

还 存在 一 些 更 为 精细 复杂 的 搜索 方法 。 正 向 选择 和 反 向 删除 可 以 结合 成 双向 搜索 ， 此 
时 ， 算 法 开始 时 可 以 包含 所 有 属性 也 可 以 不 含 任 何 属性 。 最 佳 优 先 搜索 ( best- first search) 
方法 不 是 在 性 能 开始 下 降 时 停止 搜索 ， 而 是 保存 到 目前 为 止 已 经 评估 过 的 所 有 属性 子 集 列 
表 ， 并 按照 性 能 好 坏 排序 ， 因 此 它 可 以 重 访 先前 的 配置 。 只 要 时 间 允 许 它 将 搜索 整个 空间 ， 
除非 采用 某 种 停止 标准 。 束 搜索 (beam search) 也 很 类 似 ， 只 是 在 每 个 阶段 截取 属性 子 集 列 
表 ， 因 此 它 只 含有 固定 数目 的 ( 束 宽 ) 最 有 和 希望 的 候选 对 象 。 遗 传 算法 搜索 程序 松散 地 基于 
自然 选择 原理 ， 使 用 对 当前 的 候选 子 集 的 随机 扰动 ， 而 “进化 出 ”好 的 属性 子 集 。 


7.1.8 具体 方案 相关 的 选择 


具体 方案 相关 的 (scheme-specific) 选择 的 属性 子 集 的 性 能 是 根据 学 习 方案 仅仅 使 用 
这 些 属性 进行 分 类 的 性 能 来 度量 的 。 给 定 一 个 属性 子 集 ， 正 确 率 是 采用 5.3 节 中 所 述 的 交 
又 验 证 法 来 评估 的 。 当 然 ， 其 他 评估 方法 ， 如 在 一 个 旁 置 集 上 的 性 能 〈 见 5.3 节 ) 或 者 使 
用 自助 法 估计 器 〈( 见 5.4 节 ) ， 也 同样 适用 。 

整个 属性 选择 过 程 是 计算 密集 型 的 。 如 果 每 次 评估 都 采用 10 折 交 又 验 证 ， 则 学 习 过 
程 要 执行 10 次 。 对 于 m 个 属性 ， 启 发 式 的 正 向 选择 或 者 反 向 删除 的 评估 时 间 要 乘 以 一 个 
比例 因子 ， 这 个 比例 因子 最 大 可 达 办。 对 于 更 为 复杂 的 搜索 ， 这 个 比例 因子 远大 于 此 ; 
对 于 穷 举 算法 ， 因 为 要 检验 2” 种 可 能 的 属性 子 集 ， 所 以 这 个 比例 因子 可 达 2”。 

已 被 证 实 这 个 方法 在 许多 数据 集 上 都 能 获得 好 的 结果 。 一 般 来 说 ， 反 向 删除 比 正 向 选 
择 生 成 的 属性 集 更 大 ， 但 是 在 某 些 情况 下 分 类 准确 率 更 高 。 原 因 是 性 能 度量 仅仅 是 一 个 佑 
计 ， 单 一 的 优化 估计 导致 这 两 种 搜索 过 程 过 早 停止 ， 此 时 反 向 删除 的 结果 属性 还 很 多 ， 而 
正 向 选择 的 结果 属性 还 不 够 。 然 而 ， 如 果 重 点 是 要 理解 所 涉及 的 决策 结构 ， 那 么 正 向 选择 


是 很 有 用 的 ， 因 为 它 经 常 减少 了 属性 数目 而 对 分 类 准确 率 的 影响 却 又 很 小 。 实 践 经 验 显示 Bd 


复杂 的 搜索 技术 似乎 并 不 总 是 适当 的 ， 虽 然 它们 在 某 些 情况 下 能 产生 很 好 的 结果 。 


加 速 搜索 过 程 的 一 种 方法 是 ， 一 且 发 现 不 太 可 能 产生 比 另 一 个 候选 子 集 更 高 的 准 
确 率 ， 就 立即 停止 对 这 个 属性 子 集 的 评估 。 这 项 工作 是 统计 学 上 的 配对 显著 性 检验 
(significance test) 工作 ， 它 在 基于 这 个 属性 子 集 所 生成 的 分 类 器 和 所 有 基于 其 他 子 集 
的 候选 分 类 器 之 间 进 行 。 两 个 分 类 器 对 某 个 测试 实例 分 类 的 性 能 差异 可 表示 为 -1、0 
或 1， 这 是 根据 第 一 个 分 类 器 比 第 二 个 更 差 、 相 同 或 者 更 好 而 决定 的 。 可 以 将 配对 上 检 
验 〈 见 5.5 节 ) 应 用 于 整个 测试 集 上 所 得 到 的 数据 ， 从 而 有 效 地 将 每 个 实例 的 〈 分 类 ) 
结果 当成 是 一 个 有 性 能 差异 的 独立 估计 来 处 理 。 一 旦 能 看 出 一 个 分 类 器 明显 比 另 一 个 差 
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( 当然 也 许 不 会 发 生 ) ， 就 立即 停止 交叉 验证 。 我 们 可 能 希望 更 积极 地 丢弃 某 些 分 类 器 ， 
这 可 通过 修改 上 检验 实现 ， 计 算 一 个 分 类 器 比 另 一 个 更 好 的 概率 至 少 要 达到 某 个 用 户 
指定 的 最 小 阔 值 。 如 有 果 这 个 概率 非常 小 ， 我 们 可 以 丢弃 前 一 个 分 类 器 ， 因 为 它 比 后 者 
明显 好 的 可 能 性 很 小 。 

这 个 方法 称 为 竞赛 搜索 (race search) ， 可 以 通过 采用 不 同 的 基础 搜索 策略 来 实现 。 
当 采 用 正 向 选择 策略 时 ， 所 有 可 能 添加 的 单个 属性 同时 进行 竞赛 ， 去 除 那 些 表现 不 够 
好 的 属性 。 在 采用 反 向 删除 策略 时 ， 所 有 可 能 去 除 的 单个 属性 同时 进行 竞赛 。 模 式 搜 
* (schemata search) 是 一 种 专 为 竞赛 设计 的 更 复杂 的 方法 ， 它 要 进行 一 系列 的 和 迭代 竞 
赛 ， 每 次 迭代 都 要 决定 是 否 包含 某 个 特定 属性 。 竞 赛 中 其 他 属性 在 每 一 点 评估 中 包含 
或 不 包含 是 随机 的 。 一 旦 竞赛 出 现 一 个 明显 优胜 者 ， 就 开始 下 一 轮 的 迭代 竞赛 ， 将 优 
胜 者 作为 起 始点 。 另 一 种 搜索 策略 是 先 将 属性 排序 ， 例 如 ， 利 用 它们 的 信息 增益 CB 
设 是 离散 的 ) ， 然 后 根据 排序 结果 进行 竞赛 。 这 时 竞赛 依次 从 不 含 任何 属性 、 包 含 排列 
第 一 的 属性 、 包 含 排列 前 两 位 的 属性 、 包 含 排列 前 三 位 的 属性 开始 ， 以 此 类 推 。 


一 种 简单 的 加 速 具体 方案 相关 搜索 的 方法 是 ， 在 应 用 这 一 具体 方案 相关 的 选择 前 ， 先 
通过 某 个 标准 ( 如 信息 增益 ) 对 属性 排序 ， 预 选 出 给 定数 目的 属性 ， 然 后 丢弃 其 余 的 属 
性 。 这 种 方法 被 证 明 在 高 维 数据 集 上 工作 效果 出 奇 得 好 ， 比 如 基因 表达 和 文本 分 类 数据 ， 
运用 此 方法 仅仅 用 到 了 两 三 百 个 属性 ， 而 不 是 原始 的 数 千 个 属性 。 在 正 向 选择 情况 下 ， 一 
个 稍微 复杂 的 变化 是 限制 可 用 属性 的 数目 ， 这 些 从 已 排序 的 属性 列表 选择 的 可 用 属性 用 于 
扩展 当前 属性 子 集 到 某 一 确定 大 小 子 集 ， 即 建立 一 个 可 以 伸缩 的 属性 选择 范围 ， 而 不 是 在 
每 一 步 搜索 过 程 中 考虑 所 有 (包括 无 用 的 ) 可 用 属性 。 

无 论 采 取 何 种 方法 ， 具 体 方案 相关 的 属性 选择 决 不 是 始终 都 能 获得 性 能 提高 。 由 于 处 
理 过 程 的 复杂 性 ， 属 性 选择 循环 中 包含 了 目标 机 器 学 习 算 法 的 反馈 效果 的 影响 会 使 这 个 复 
杂 性 显著 增加 ， 同 时 很 难 预 测 在 何 种 条 件 下 是 有 价值 的 。 正 如 在 许多 机 器 学 习 情 况 下 ， 使 
用 自己 的 特定 数据 反复 试验 是 最 终 的 仲裁 者 。 

有 一 种 分 类 器 ， 它 的 具体 方案 相关 的 属性 选择 是 它 学 习 过 程 的 一 个 重要 部 分 : 决策 
表 。 正 如 在 3. 1 节 中 所 提 到 的 ， 学 习 决 策 表 的 全 部 问题 在 于 选择 合适 的 属性 。 通 常 是 通过 
对 不 同属 性 子 集 进行 交叉 验证 ， 选 择 表现 最 好 的 属性 子 集 。 幸 运 的 是 ， 留 一 交叉 验证 对 于 
这 种 分 类 器 来 说 ， 代 价 非常 小 。 由 于 添加 或 删除 实例 并 不 改变 表 的 结构 ， 所 以 从 训练 数据 
获得 决策 表 的 交叉 验证 误差 仅仅 是 要 处 理 与 类 统计 相关 的 表 中 的 每 个 项 目 。 属 性 空间 的 搜 
索 通常 采用 最 佳 优 先 的 方法 ， 因 为 这 个 策略 与 其 他 策略 〈 如 正 向 选择 ) 相 比 ， 在 搜索 过 程 
中 陷入 局 部 最 大 值 的 可 能 性 更 小 。 

让 我 们 用 一 个 成 功 的 故事 来 结束 讨论 。 有 一 种 学 习 方 法 ， 采 用 了 简单 的 具体 方案 相关 
的 属性 选择 方法 并 具有 较 好 表现 ， 那 就 是 朴素 贝 叶 斯 法 。 尽 管 这 个 方法 对 于 随机 属性 处 理 
得 相当 好 ， 但 当 属性 之 间 存 在 依赖 关系 时 ， 特 别 是 在 加 入 了 元 余 属 性 时 ， 它 存在 误导 的 倾 
向 。 然 而 ， 使 用 正 向 选择 算法 ， 当 有 元 余 属 性 加 入 时 ， 与 反 向 删除 相 比 ， 此 方法 具有 更 强 
的 辨别 元 余 属性 的 能 力 ， 结 合 使 用 一 个 非常 简单 、 几 乎 是 “幼稚 ”的 量度 来 决定 属性 子 集 
的 质量 ， 即 采用 学 习 算 法 在 训练 数据 集 上 的 性 能 作为 度量 。 在 第 5 章 中 曾 强 调 ， 在 训练 集 
上 的 性 能 绝对 不 是 测试 集 性 能 的 可 靠 指示 器 。 然 而 ， 实 验 表 明 对 朴素 贝 叶 斯 法 所 做 的 如 此 
简单 的 改进 ， 在 那些 原本 性 能 不 如 其 他 基于 树 或 基于 规则 分 类 器 的 标准 数据 集 上 ， 现 在 却 
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能 获得 显著 的 性 能 提高 ， 而 对 于 那些 原本 就 表现 较 好 的 数据 集 没有 任何 负面 影响 。 选 择 性 
朴素 贝 叶 斯 (Selective Naive Bayes) 这 种 学 习 方法 正如 其 名 称 ， 是 一 种 在 实践 中 可 靠 的 、 
性 能 良好 的 机 器 学 习 技 术 。 


7.2 离散 化 数值 属性 


有 些 分 类 和 聚 类 算法 只 能 处 理 名 目 属性 而 不 能 处 理 数值 属性 。 为 了 将 这 些 算法 应 用 于 
一 般 数据 集 ， 数 值 属性 必须 先 被 “离散 化 ”成 一 些 不 同 的 值 域 。 即 使 是 能 够 处 理 数值 属性 
的 学 习 算 法 ， 有 时 处 理 方法 也 并 不 完全 令 人 满意 。 统 计 聚 类 方法 常 假设 数值 属性 呈正 态 分 
布 ， 这 在 实践 中 时 常 是 不 太 合理 的 假设 。 朴 素 贝 叶 斯 分 类 器 用 于 处 理 数值 属性 的 标准 扩展 
法 ， 也 采用 同样 的 假设 。 虽 然 大 多 数 的 决策 树 和 决策 规则 学 习 器 可 以 处 理 数值 属性 ， 但 是 
当 出 现 数值 属性 时 ， 由 于 需要 重复 对 属性 值 进行 排序 ， 有 些 分 类 器 的 工作 变 得 相当 慢 。 由 
于 上 述 种 种 原因 产生 了 一 个 问题 ， 在 进行 学 习 之 前 将 数值 属性 离散 成 不 同 的 值 域 ， 应 该 采 
取 什 么 样 的 方法 ? 

我 们 先前 已 经 看 到 一 些 离散 数值 属性 的 方法 。 在 第 4 章 中 讨论 的 1 规则 (IR) 学 习 
方案 采用 了 一 种 简单 而 有 效 的 技术 : 根据 属性 值 将 实例 进行 排序 ， 在 类 出 现 变化 时 设 定 属 
性 值 的 值 域 ， 除 此 以 外 ， 每 个 值 域内 多 数 类 的 实例 数目 应 不 小 于 某 个 最 小 值 (6 个 ) ， 这 
意味 着 任何 一 个 值 域 所 含 类 值 可 能 是 混合 的 。 这 是 一 种 在 开始 学 习 之 前 能 应 用 于 所 有 连续 
属性 的 “全 局 的 ”离散 化 方法 。 

男 一 方面 ， 决 策 树 学 习 咒 在 局 部 进行 数值 属性 处 理 ， 在 树 的 每 个 结 点 处 ， 当 决定 是 
否 值得 分 枝 时 对 属性 进行 检查 ， 并 且 只 在 这 个 结 点 处 决定 连续 属性 的 最 佳 分 裂 点 。 虽 然 
在 第 6 章 中 讨论 的 建树 方法 只 考虑 将 连续 属性 进行 二 分 裂 ， 但 可 以 设想 在 这 个 结 点 做 完 
全 的 离散 从 而 对 数值 属性 进行 多 路 分 裂 。 采 用 局 部 方法 和 全 局 方法 的 优 缺 点 很 清楚 。 局 
部 离散 是 为 适应 树 的 每 个 结 点 的 实际 情况 ， 同 一 个 属性 在 树 的 不 同位 置 ， 只 要 看 起 来 适 
当 ， 就 会 产生 不 同 的 离散 结果 。 然 而 ， 随 着 树 深 度 的 增加 ， 由 于 这 个 决定 是 基于 较 少 的 
数据 而 做 出 的 ， 就 会 影响 它 的 可 靠 性 。 如 果树 在 剪 枝 之 前 一 直 往 下 扩展 直到 单个 实例 的 
叶子 结 点 ， 如 同 采用 普通 的 反 向 剪 校 技术 一 样 ， 很 明显 许多 离散 化 决定 是 基于 非常 不 充 
足 的 数据 而 做 出 的 。 

在 应 用 学 习 方 法 之 前 采用 全 局 离散 化 ， 有 两 种 可 能 方法 将 离散 的 数据 呈现 给 学 习 器 。 
最 明显 的 方法 是 把 离散 属性 当做 名 目 属性 来 处 理 ， 每 个 离散 区 间 用 名 目 属性 的 一 个 值 来 代 
表 。 然 而 ， 由 于 离散 属性 是 从 数值 属性 推导 而 来 的 ， 所 以 它 的 值 是 有 序 的 ， 把 它 当 做 名 目 
属性 处 理 就 丢弃 了 它 潜在 的 颇 有 价值 的 排序 信息 。 当 然 ， 如 果 学 习 方案 能 够 直接 处 理 有 序 
属性 ， 那 么 解决 方法 显而易见 ， 将 每 个 离散 的 属性 声明 为 “有 序 ” 型 的 属性 。 

如 果 学 习 方 法 不 能 处 理 有 序 属 性 ， 仍 然 有 一 个 简单 的 方法 可 用 来 利用 排序 信息 ， 即 在 
使 用 学 习 方法 之 前 ， 将 每 个 离散 属性 转换 成 二 元 属性 集 。 假 设 离散 属性 有 上 个 值 ， 则 将 它 
转换 为 大- 1 个 二 元 属性 。 对 于 某 一 特定 的 实例 ， 如 果 其 原始 的 属性 值 为 i， 就 将 前 i-1 个 
二 值 属性 设 定 为 false， 将 其 余 的 都 设 为 te。 换 句 话 说 ,第 i-1 个 二 元 属性 代表 了 离散 属 
性 是 否 小 于 ;。 如 果 决 策 树 学 习 顺 要 分 裂 这 个 属性 ， 它 可 利用 这 个 编码 中 所 隐 含 排序 的 信 
息 。 注 意 这 个 转换 独立 于 所 应 用 的 具体 离散 化 方法 ， 它 只 是 用 一 组 二 元 属性 来 对 一 个 有 序 
属性 进行 编码 。 
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7.2.1 无 监督 离散 化 


离散 化 问题 有 两 种 基本 方法 。 一 种 是 在 训练 集 实例 类 未 知 的 情况 下 ， 对 每 个 属性 量 
化 ， 即 所 谓 的 无 监督 离散 化 (unsupervised discretization) 。 另 一 种 是 在 离散 化 时 考虑 类 属 
性 ， 即 有 监督 离散 化 (supervised discretization) 。 前 者 只 有 在 处 理 类 未 知 或 类 不 存在 的 聚 
类 问题 时 ， 才 有 可 能 碰 到 。 

离散 化 数值 属性 的 直观 方法 是 将 值 域 分 成 多 个 预先 设 定 的 等 长 区 间 : 一 个 固定 的 独立 
于 数据 的 尺度 。 通 常 是 在 收集 数据 后 进行 。 但 是 ， 与 其 他 无 监督 离散 化 方法 一 样 ， 它 存在 
某 些 风险 ， 由 于 使 用 的 等 级 过 于 粗糙 而 破坏 了 在 学 习 阶 段 中 可 能 有 用 的 区 分 ， 或 者 不 幸 选 
择 了 将 许多 不 同类 的 实例 不 必要 地 混在 一 起 的 分 隔 边界 。 

等 间距 装 箱 (equal-width binning) 经 常 造成 实例 分 布 非常 不 均匀 : 有 些 箱 中 包含 许多 
实例 ， 而 有 的 却 一 个 也 没有 。 这 样 会 严重 削弱 属性 帮助 构建 较 好 决策 结构 的 能 力 。 通 常 ， 
更 优 的 办 法 是 允许 有 不 同 大 小 的 区 间 存 在 ， 从 而 使 每 个 区 间 内 的 训练 实例 数量 相等 。 这 种 
方法 称 为 等 频 装 箱 (equal-frequency binning) ， 根 据 这 个 轴 上 的 实例 分 布 将 属性 值 域 分 成 
多 个 预先 设 定 的 区 间 ， 有 时 称 为 直方 图 均衡 化 (histogram equalization ) ， 因 为 如 果 观 察 结 
果 区 间 内 容 的 直方 图 ， 就 会 看 到 它 是 完全 平 直 的 。 如 果 把 区 间 数 目 视 为 一 种 资源 ， 这 个 方 
法 最 好 地 利用 了 该 资源 。 

然而 ， 等 频 装 箱 仍 然 忽 略 了 实例 的 类 属性 ， 这 将 导致 不 良 的 分 界 。 例 如 ， 如 果 一 个 区 
间 中 所 有 实例 都 属于 一 个 类 ， 而 下 一 个 更 高 的 区 间 中 除了 第 一 个 实例 仍 属于 先前 的 类 外 ， 
其 余 的 实例 都 属于 另 一 个 类 ， 那 么 理所当然 应 尊重 类 特性 分 布 ， 将 第 一 个 实例 划分 到 前 一 
个 区 间 中 ， 可 见 牺 牲 等 频 特 性 以 保全 类 的 同 质 性 是 很 有 意义 的 。 有 监督 的 离散 化 ， 即 在 离 
散 化 过 程 中 考虑 类 特性 当然 有 优势 。 尽 管 如 此 ， 人 们 发 现 等 频 装 箱 能 带 来 非常 好 的 结果 ， 
至 少 是 在 与 朴素 贝 叶 斯 学 习 法 相 结合 应 用 时 ， 此 时 区 间 个 数 依 数据 而 被 设 定 为 实例 总 数目 
的 平方 根 。 这 个 方法 称 为 均衡 左 区 间 离 散 化 (proportional k- interval discretization ) 。 


7.2.2 PRR BH 


由 于 决策 树 形成 过 程 中 所 采用 的 分 裂 数值 属性 的 标准 在 实践 中 效果 较 好 ， 所 以 通过 采 
用 递归 分 裂 区 间 直 至 满足 终止 条 件 将 其 扩展 为 更 通用 的 离散 法 不 失 为 一 个 良策 。 在 第 6 章 
中 我 们 学 习 了 如 何 将 实例 按照 属性 值 排序 ， 如 何在 每 个 可 能 的 分 裂 结 点 考虑 分 裂 结果 的 信 
息 增益 。 对 于 属性 离散 化 来 说 ,一 旦 决定 第 一 次 分 裂 ， 分 裂 过 程 可 以 在 上 部 值 域 或 下 部 值 
域 递归 地 重复 进行 。 

为 了 了 解 在 实践 中 是 如 何 工作 的 ， 再 来 回顾 一 下 ( 见 6.1 节 ) 离散 天 气 数据 中 温度 属 
性 的 例子 ， 属 性 值 为 

64 65 68 69 70 71 72 75 80 81 83 85 


yes no yes yes yes no no yes no yes yes no 
yes yes 


(重复 值 已 经 被 至 在 一 起 了 。) 11 处 可 能 的 分 裂 点 的 信息 增益 按照 常规 方法 计算 。 例 如 ， 
temperature <71. 5 的 测试 ， 将 值 域 分 裂 为 包含 4 个 yes、2 no 与 5 个 yes、3 个 no， 其 信 
息 值 为 : 

info([4,2],[5,3]) = (6/14) x info([4,2]) + (8/14) x info([5,3]) = 0.939 位 
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这 个 值 代 表 了 给 出 此 分 裂 后 要 详 述 各 个 yes 和 no 值 所 需要 的 信息 总 量 。 我 们 要 寻找 一 种 离 
散 化 使 子 区 间 尽 可 能 地 纯正 ， 因 此 要 选择 信息 值 最 小 的 分 裂 点 (这 等 同 于 要 在 信息 增益 最 
大 处 分 裂 ， 信 息 增 益 定义 为 未 分 裂 与 分 裂 后 的 信息 值 的 差 值 ) 。 如 前 所 述 ， 将 数值 阔 值 置 
于 概念 分 界 区 域 的 中 间 位 置 。 

图 7-2 中 标记 为 A 的 曲线 显示 了 第 一 个 阶段 每 个 可 能 的 分 裂 点 的 信息 值 。 最 好 的 分 裂 
( 即 信息 值 最 小 处 ) 在 温度 为 84 处 (0. 827 位 ) ， 它 只 是 将 排列 在 最 后 的 、 类 值 为 no 的 实 
例 从 原先 的 序列 中 分 离 出 来 。 在 水 平 轴 底 下 标 出 了 实例 的 类 属性 以 便 说 明 。 在 温度 的 低 值 
域 64 ~83 ， 再 次 应 用 这 个 算法 产生 图 7-2 中 标记 为 B 的 曲线 。 这 次 最 小 值 在 80. 5 (0.800 
位 ) ， 将 接 下 来 的 两 个 同属 于 yes 类 的 实例 分 离开 。 再 次 在 低 值 域 上 应 用 算法 ， 现 在 是 
64 ~ 80 产生 标记 为 C 的 曲线 (图 7-2 中 用 点 线 表 示 以 便 与 其 他 曲线 区 别 开 来 ) 。 最 小 值 在 
77.5 kk. (0.801 位 ) ， 又 分 离 出 一 个 类 值 为 no 的 实例 。 曲 线 D 的 最 小 值 在 73.5 处 (0. 764 
位 ) ， 分 离 出 两 个 类 值 为 yes 的 实例 。 曲 线 下 〈 再 次 使 用 虚线 ， 只 是 为 了 易于 分 辨 ) ， 温 度 
值 域 从 64 ~72， 最 小 值 在 70.5 处 (0.796 位 ) ， 它 分 离 出 两 个 类 值 为 no 和 一 个 类 值 为 yes 
的 实例 。 最 后 ， 曲 线 耻 ， 值 域 从 64 ~70， 最 小 值 在 66.5 处 (0.4 fiz). 





65 70 75 80 85 


no yes 
yes no yes yes yes no ‘ies yes no yes yes no 


7-2. SFA TIE BS BL temperature 属性 
最 终 的 temperature 属性 的 离散 化 结果 如 图 7-3 所 示 。 递 归 只 发 生 在 每 次 分 裂 后 的 第 一 
个 区 间 上 的 情况 ， 在 此 例 中 是 人 为 因素 造成 的 : 一 般 来 说 ， 上 部 和 下 部 区 间 都 将 被 进一步 
分 裂 。 每 次 分 裂 下 方 所 示 的 (字母 ) 是 图 7-2 中 对 应 于 该 次 分 裂 的 曲线 标记 ， 底 部 是 分 裂 
点 真正 的 分 裂 值 。 





图 7-3 temperature 属性 离散 化 结果 
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从 理论 上 来 看 ， 使 信息 值 最 小 的 切割 点 绝对 不 会 出 现在 同属 于 一 个 类 的 两 个 实例 之 
间 。 这 个 特征 引入 了 一 个 有 用 的 优化 方案 。 只 需 考虑 发 生 在 不 同类 实例 之 间 的 潜在 分 裂 。 
注意 如 果 区 间 的 类 标签 是 基于 区 间 的 多 数 类 而 定 的 ， 那 么 不 能 保证 相 邻 的 区 间 具 有 不 同 的 
类 标签 。 你 也 许 会 考虑 将 多 数 类 相同 的 区 间 进 行 合 并 (例如 ,图 7-3 中 的 前 两 个 区 间 ) , 
但 是 ， 下 面 你 将 会 看 到 通常 这 样 做 效果 并 不 好 。 

剩 下 要 考虑 的 问题 就 是 停止 标准 。 在 温度 例子 中 ， 大 多 数 经 确认 的 区 间 都 是 “纯粹 
的 ”， 即 区 间 内 所 有 实例 的 类 值 都 相同 ， 很 显然 没有 必要 再 去 分 裂 这 样 的 区 间 (最 后 一 个 
区 间 ， 我 们 默认 不 再 分 裂 ， 还 有 70.5 ~73.5 这 个 区 间 ， 是 两 个 例外 ) 。 然 而 ， 一 般 情 况 下 
问题 并 不 是 这 么 简单 。 

要 终止 基于 和 分 裂 的 离散 程序 的 一 个 好 方法 是 利用 曾 在 第 5 章 中 遇 到 的 MDL 原理 
( 见 5.9 节 )。 根 据 这 个 原理 ， 要 使 “理论 ”规模 加 上 从 理论 上 描述 所 有 给 定数 据 所 需 的 
信息 量 达到 最 小 值 。 在 这 种 情况 下 ， 如 果 进行 分 裂 ， “理论 ”是 分 裂 点 ， 需 要 比较 在 理论 
分 裂 点 分 裂 和 不 分 裂 两 种 情形 。 在 这 两 种 情况 下 ， 都 假设 实例 已 知 ， 但 它们 的 类 标签 未 
知 。 如 果 不 进行 分 裂 ， 类 别传 输 可 以 通过 将 每 个 实例 的 标签 进行 编码 来 实现 。 如 果 进 行 分 
裂 ， 先 将 分 裂 点 编码 (log,[N-1] fz, KE N 是 实例 数量 ) ， 然 后 是 小 于 这 个 分 裂 点 的 
类 ， 再 是 大 于 这 个 分 裂 点 的 类 。 

可 以 想象 ， 如 果 这 是 一 个 好 的 分 裂 点 ， 壁 如 说 ， 所 有 小 于 这 点 的 类 值 都 是 yes， 所 有 
大 于 这 点 的 类 值 都 是 no， 那 么 分 裂 就 会 带 来 相当 大 的 益处 。 如 果 yes 和 no 的 实例 数量 相 
等 ， 不 采用 分 裂 时 ， 每 个 实例 耗费 1 位 ， 而 使 用 分 裂 时 耗费 很 难 超过 0 位 ， 也 不 完全 为 0， 
因为 类 值 以 及 分 裂 本 身 都 需要 编码 ， 但 这 个 耗费 代价 分 摊 到 所 有 的 实例 上 。 在 这 种 情形 
下 ， 如 果 有 许多 实例 ， 那 么 由 分 裂 所 节省 的 信息 量 将 远 超出 必须 对 分 裂 点 进行 编码 的 
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在 5.9 节 中 曾 强调 ， 应 用 MDL 原理 时 ， 困 难 会 随 着 对 问题 细节 的 深入 而 出 现 。 在 
相对 简单 的 离散 情形 中 ， 尽 管 也 不 简单 ， 但 还 是 较 易 处 理 的 。 在 某 些 合理 的 假设 条 件 
下 信息 总 量 可 以 准确 获得 。 这 里 我 们 不 再 深入 讨论 ， 结 论 是 在 某 一 特定 的 分 割 点 分 裂 
是 值得 的 ， 只 要 由 这 个 分 裂 所 带 来 的 信息 增益 超出 某 个 定 值 ， 而 这 个 定 值 是 由 实例 数 
量 N、 类 别 数量 k、 实 例 集 的 焙 、 每 个 子 区 间 内 实例 集 E, RI E, BS) ELS RET T DX E 
内 的 类 别 数量 和 所 决定 的 : 

. logys(N-1) log,(3* -2) -kE +k E, +k,E, 
gain > N + N 
上 和 式 中 的 第 一 个 部 分 是 描述 分 裂 点 所 需要 的 信息 ， 第 二 部 分 是 传输 分 别 对 应 于 前 面 和 
后 面 的 子 区 间 的 那些 类 别 所 需要 的 信息 量 的 修正 量 。 

当 应 用 于 温度 例子 时 ， 这 个 标准 将 会 阻止 任何 分 裂 。 第 一 次 分 裂 只 分 离 出 了 最 后 
一 个 实例 ， 正 如 你 所 能 想象 的 ， 通 过 这 次 分 裂 ， 传 输 这 些 类 别 时 几乎 没有 获得 什么 真 
正 的 信息 。 实 际 上 ，MDL 标准 不 会 产生 任何 只 含 一 个 实例 的 区 间 。 离 散 化 temperature 
属性 的 失败 ， 取 消 了 它 在 最 终 的 决策 树 结构 中 担当 任何 角色 的 资格 ， 因 为 赋予 所 有 实 
例 的 离散 值 都 会 是 一 样 的 。 在 这 种 情形 下 ， 这 是 完全 合理 的 : 对 于 天 气 数 据 来 说 ， 
temperature 属性 在 好 的 决策 树 或 决策 规则 中 都 不 会 出 现 。 实 际 上 ， 离 散 化 失败 等 价 于 
属性 选择 的 效果 。 
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7.2.3 其 他 离散 化 方法 


采用 基于 焙 的 方法 并 应 用 MDL 停止 标准 是 有 监督 离散 化 最 好 的 通用 技术 之 一 。 人 们 
还 研究 了 许多 其 他 方法 。 例 如 ， 蔡 代 原 先 自 上 而 下 并 通过 递归 分 裂 区 间 直 至 满足 某 个 停止 
标准 的 程序 ， 你 也 可 以 自 下 而 上 ， 先 将 每 个 实例 置 于 各 自 的 区 间 ， 然 后 考虑 是 否 合并 相 邻 
区 间 。 可 以 应 用 统计 标准 来 考察 哪 两 个 是 最 佳 合 并 区 间 ， 如 果 统 计 结果 超出 某 个 事先 设 定 
的 置信 水 准 就 将 它们 合并 ， 重 复 此 过 程 直到 不 再 有 能 通过 检验 的 潜在 合并 。X 检验 是 一 种 
很 合适 且 已 运用 于 实际 的 方法 。 更 为 复杂 的 技术 用 于 自动 决定 合适 的 (置信 ) KERER 
预先 设置 重要 性 阔 值 。 

一 个 相当 不 同 的 方法 是 在 对 训练 实例 的 类 进行 预测 时 ， 统 计 离散 化 所 带 来 的 误差 数 
量 ， 此 处 假设 每 个 区 间接 收 多 数 类 。 例 如 ， 前 面 所 述 的 1 规则 (1R) 方法 是 基于 误差 的 ， 
它 更 注重 于 误差 而 非 炉 。 然 而 ， 根 据 误 差 累计 所 获得 的 最 佳 离散 化 ， 往 往 是 通过 尽 可 能 多 
的 区 间 个 数 而 得 到 ， 必 须 预 先 限定 区 间 个 数 来 避免 这 种 退化 情形 。 

寻找 一 种 最 好 的 方法 将 一 个 属性 离散 化 成 个 区 间 ， 并 在 一 定 程度 上 最 小 化 累计 误 
差 。 若 使 用 穷 举 这 样 的 蛮 力 方法 来 实现 ,误差 与 成 指数 关系 ， 因 此 是 不 可 行 的 。 但 是 ， 
基于 动态 规划 理念 却 有 一 些 非常 有 效 的 方案 。 动 态 规划 不 仅 应 用 于 误差 累计 度量 ， 而 且 可 
应 用 于 任何 给 定 的 可 加 的 不 纯 函数 ， 能 找到 将 NN 个 实例 分 裂 成 个 区 间 ， 使 不 纯度 最 小 
化 ， 并且 消耗 的 时 间 与 kN" 成 比例 。 这 给 出 了 一 种 用 于 寻找 最 佳 的 基于 粹 的 离散 化 方法 ， 
使 之 前 讲述 的 基于 炉 的 递归 离散 化 方法 的 效果 得 到 潜在 改善 (但 在 实践 中 这 种 改善 却 是 可 
忽略 的 ) 。 基 于 误差 离散 的 效果 更 好 一 点 儿 ， 因 为 有 一 种 方法 可 使 误差 累计 最 小 化 的 时 间 
与 N 成 线性 关系 。 


7.2.4 基于 暗 的 离散 化 与 基于 误差 的 离散 化 


既然 优化 后 的 基于 误差 的 离散 化 运行 非常 快 ， 为 什么 不 采用 基于 误差 的 离散 化 ? 答案 
是 ， 基 于 误差 的 离散 化 有 一 个 严重 的 缺点 ， 它 不 让 相 邻 区 间 有 相同 的 类 标签 〈 如 图 7-3 中 
的 前 两 个 )。 原 因 是 合并 这 样 两 个 区 间 不 影响 误差 累计 ， 却 能 释放 一 个 区 间 用 于 (离散 ) 
其 他 地 方 降 低 误差 累计 。 

为 什么 有 人 要 生成 两 个 相同 类 标的 相 邻 
区 间 呢 ?下 面 的 例子 是 最 好 的 解释 。 图 7-4 
展示 了 一 个 简单 的 二 分 类 问题 的 实例 空间 ， 
它 含 有 两 个 数值 属性 ， 属 性 值 范 围 从 0 ~1。 
如 果实 例 的 第 一 个 属性 (a,) 值 小 于 0.3, 或 
者 第 一 个 属性 小 于 0.7 且 第 二 个 属性 (a,) 
值 小 于 0.5， 那么 实例 属于 一 个 类 (图 7-4 中 
圆 点 ) ; 否则 ， 实 例 便 是 属于 男 一 个 类 (图 7- 
4 中 三 角 )。 图 7-4 中 的 数据 就 是 根据 这 些 规 
则 人 工 生成 的 。 

现在 假设 要 将 两 个 属性 进行 属性 离散 化 ， 
以 便 从 离散 属性 中 进行 分 类 学 习 。 最 好 的 离 图 7-4 含 两 个 类 别 、 两 个 属性 问题 的 类 分 布 
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散 分 裂 就 是 将 w 分 裂 成 3 个 区 间 (0 0.3, 0.3 0.7, 0.7 21.0) , K a, 分 裂 成 2 个 区 间 
(0 ~0.5、0.5 ~1.0) 。 给 定 这 些 名 目 属 性 ， 要 学 习 怎 样 用 简单 的 决策 树 或 规则 算法 分 类 就 
很 容易 了 。 分裂 a, 没有 问题 。 对 于 a. 来 说 ， 第 一 个 和 最 后 一 个 区 间 具 有 相反 的 类 标签 
(分 别 是 圆 点 和 三 角 ) 。 第 二 个 类 标签 是 从 0. 3 ~ 0.7 这 个 区 间 上 出 现 较 多 的 那个 类 别 (对 
于 图 7-4 中 的 数据 来 说 实际 上 是 圆 点 ) 。 无 论 怎样 ， 这 个 标签 肯定 会 与 一 个 相 邻 的 标签 相 
同 ， 无 论 中 间 区 域 的 类 概率 是 多 少 ， 这 点 都 是 成 立 的 。 因 此 ， 这 种 离散 化 是 任何 一 种 最 小 
化 累计 误差 的 方法 都 不 会 得 到 的 ， 因 为 这 类 方法 不 允许 相 邻 区 间 产 生 相 同 的 标签 。 

重点 是 当 a, 的 属性 值 越过 0. 3 这 个 界线 时 ， 改 变 的 不 是 多 数 类 而 是 类 分 布 。 多 数 类 
仍然 是 圆 点 ， 但 类 分 布 发 生 了 显著 变化 ， 从 以 前 的 100% 到 刚 过 50% 。 当 越过 0.7 后 ， 类 
分 布 再 次 变化 ， 从 50% 降低 到 0% 。 即 使 多 数 类 不 变化 ， 基 于 入 的 离散 化 方法 对 于 类 分 布 
变化 也 敏感 。 而 基于 误差 的 方法 却 不 敏感 。 


7.2.5 离散 属性 转换 成 数值 属性 


有 一 个 和 离散 化 相反 的 问题 。 有 些 学 习 算 法 ， 特 别 是 基于 实例 的 最 近邻 法 和 涉及 回归 
的 数值 预测 技术 ， 处 理 的 只 是 数值 属性 。 怎 样 将 它们 扩展 应 用 于 名 目 属 性 呢 ? 

如 4.7 节 中 所 描述 的 基于 实例 的 学 习 可 以 通过 定义 两 个 名 目 属 性 值 之 间 的 “距离 ”把 
离散 属性 当做 数值 属性 来 处 理 ， 相 同 值 距离 为 0， 不 同 值 距离 为 1， 而 不 管 实 际 值 是 多 少 。 
不 用 修改 距离 函数 ， 而 是 使 用 一 种 属性 转换 来 实现 ， 将 一 个 含有 上 个 属性 值 的 名 目 属性 用 
k 个 合成 的 二 元 属性 来 替代 ， 每 个 〈 二 元 属性 ) 对 应 一 个 〈 名 目 属性 ) 值 ， 指 示 这 个 属性 
是 否 有 这 个 属性 值 。 如 果 属 性 权 值 相同 ， 则 它们 在 距离 函数 上 的 影响 是 相同 的 。 距 离 对 于 
属性 值 是 不 敏感 的 ， 因 为 具有“ 相同” 或“ 不同” 两 种 信息 被 编码 了 ， 而 不 关心 与 各 种 
可 能 的 属性 值 相 关联 的 差别 度 。 如 果 属 性 带 有 反映 它们 相对 重要 性 的 权 值 ， 就 能 获得 更 多 
的 细微 差别 (信息 )。 如 果 属 性 值 可 以 排序 ， 就 可 以 带 来 更 多 的 可 能 性 。 对 于 数值 预测 问 
题 ， 对 应 于 每 个 名 目 属 性 值 的 平均 类 值 可 以 从 训练 实例 中 计算 得 到 ， 并 可 用 它们 来 确定 一 
个 有 序 序列 。 这 种 技术 是 为 6. 6 节 中 的 模型 树 而 引入 的 〈 对 于 分 类 问题 ， 很 难 找到 类 似 的 
方法 对 属性 值 进行 排序 ) 。 很 明显 ， 一 个 排序 的 名 目 属性 可 以 用 一 个 整数 来 代替 ， 这 不 仅 
Eua luc 
上 -1 个 合成 二 元 属性 来 避免 引入 度量 ， 如 本 节 前 面 所 描述 的 那样 。 这 种 编码 方法 仍然 表示 
不 同属 性 值 之 间 的 排序 ; 相 邻 的 值 只 会 有 一 个 二 元 属性 不 同 ， 而 间隔 的 值 会 有 多 个 二 元 属 
性 不 相同 ， 但 这 时 属性 值 之 间 不 是 等 距离 的 。 


7.3 投影 


资源 丰富 的 数据 挖掘 者 拥有 满载 挖掘 技术 的 工具 箱 ， 壁 如 用 于 数据 转换 的 离散 技术 。 
5j 2.4 节 中 所 强调 的 一 样 ， 数 据 挖掘 从 来 就 不 是 提取 一 个 数据 集 ， 将 学 习 算 法 应 用 于 数据 
上 那么 简单 的 事情 。 i feel ieee fgg hs 考 ， 琢 磨 它 的 意义 ， 然 后 从 不 
同 的 角度 来 检验 ， 独 创 性 地 找到 一 个 合适 的 观点 。 用 不 同 的 方法 对 数据 进行 转换 可 以 帮助 
你 拥有 一 m d e nA 种 函数 或 映射 ， 通 过 某 种 方式 将 
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你 不 必 亲 自 去 实现 这 些 技术 来 武装 自己 的 工具 箱 。 综 合 的 数据 控 气 环境， 为 你 提供 了 
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广泛 的 有 用 工具 ， 如 本 书 第 三 部 分 所 介绍 的 就 是 其 中 的 一 种 。 你 不 必 详 细 了 和 解 它们 是 怎么 
实现 的 。 你 所 要 了 解 的 是 这 些 工具 能 干什么 ， 怎 样 来 使 用 它们 。 本 书 第 三 部 分 列 出 并 简单 
介绍 了 出 现在 Weka 数据 挖掘 工作 台 上 的 所 有 转换 。 

数据 经 常 要 求 对 一 系列 属性 进行 数学 转换 。 将 指定 的 数学 函数 应 用 于 现 有 的 属性 上 
对 新 的 属性 进行 定义 或 许 会 有 用 。 两 个 日 期 属性 相 减 可 能 产生 第 三 个 代表 年 龄 的 属性 ， 
这 是 一 个 受 原始 属性 含义 所 驱动 的 语义 转换 的 例子 。 在 已 知 学 习 算法 的 一 些 特性 情况 
下 ， 也 建议 运用 其 他 一 些 转换 。 如 果 觉 察 到 一 个 线性 关系 涉及 两 个 属性 A 和 B， 而 算法 
只 能 进行 轴 平 行 的 分 裂 〈 如 大 多 数 的 决策 树 和 规则 学 习 器 ) ， 那 么 可 以 将 比率 A: B 定义 
成 一 个 新 的 属性 。 转 换 不 必 一定 是 数学 函数 ， 也 可 能 包含 一 些 常识 ， 如 一 星期 所 含 天 
数 、 公 休假 期 或 化 学 原子 量 等 。 转 换 可 以 表示 为 电子 数据 表 中 的 运算 或 用 任意 计算 机 程 
序 来 实现 的 函数 。 

或 者 也 可 以 将 几 个 名 目 属 性 的 属性 值 联合 在 一 起 成 为 一 个 属性 ， 由 分 别 含 MEA 
ky 个 值 的 两 个 属性 产生 包含 k xk, 个 值 的 单一 属性 。 离 散 化 将 一 个 数值 属性 转换 为 名 目 
属性 ， 同 时 我 们 也 看 到 了 怎样 进行 逆向 转换 。 

另 一 种 转换 是 在 数据 集 上 应 用 聚 类 过 程 ， 然 后 定义 一 个 新 属性 ， 对 于 任何 实例 来 说 ， 
新 属性 的 值 就 是 实例 所 属 的 聚 类 的 类 标 。 或 者 ， 对 于 概率 聚 类 来 说 ， 可 以 为 每 个 实例 增加 
它 属 于 各 个 聚 类 的 概率 ， 有 多 少 聚 类 就 添加 多 少 个 新 属性 。 

有 时 在 数据 上 添加 一 些 噪声 数据 会 有 帮助 ， 可 用 来 检测 一 个 学 习 算法 的 健壮 性 ; 取 一 
个 名 目 属性 ， 改 变 一 定 比例 的 属性 值 ; 通过 将 关系 、 属 性 名 称 、 名 目 属性 和 字符 串 属性 的 
属性 值 重新 命名 使 数据 混乱 (因为 通常 使 一 些 敏感 数据 集 匿名 化 是 有 必要 的 ); 将 实例 的 
次 序 随机 化 或 通过 重 抽样 产生 数据 集 的 一 个 随机 样本 ; 按照 某 个 给 定 比例 删除 实例 ， 或 者 
删除 名 目 属性 为 某 些 值 的 实例 ， 或 者 删除 数值 属性 值 高 于 或 低 于 某 个 浆 值 的 实例 ， 从 而 减 
小 实例 集 ; 或 者 在 数据 集 上 应 用 某 种 分 类 方法 ， 然 后 删除 被 错误 分 类 的 实例 ， 以 此 去 除 某 
些 离 群 点 。 

不 同类 型 的 输入 要 求 有 它们 各 自 的 转换 。 如 果 能 输入 稀 朴 数据 文件 〈( 见 2.4 节 )， 也 
许 需要 能 将 数据 集 转换 为 非 稀 朴 形 式 ， 反 之 亦 然 。 文 本 输入 和 时 间 序 列 输入 要 求 有 它们 各 
自 的 特殊 转换 ， 将 在 下 面 的 小 节 中 详 述 。 先 来 看 看 将 数值 属性 转换 为 低 维 形式 的 两 种 通用 
技术 ， 它 在 数据 挖掘 中 比较 有 用 。 





7.89.1 主 成 分 分 析 


对 于 一 个 含有 m 个 数值 属性 的 数据 集 ， 可 将 这 些 数据 想象 成 在 m. 维 空间 上 密布 的 点 ， 
就 像 天 上 的 星星 、 一 大 群 被 定格 的 飞 虫 、 一 张 纸 上 的 2 维 散 点 图 。 属 性 代表 在 空间 上 的 坐 
标 轴 。 但 所 用 的 轴 ， 即 坐标 系统 本 身 ， 是 任意 方向 的 。 你 可 以 在 纸 上 放 置 一 个 水 平方 向 和 
一 个 垂直 方向 的 轴 ， 然 后 利用 这 些 坐标 轴 来 表示 散 点 图 中 的 每 个 点 ， 也 可 以 任意 画 一 条 直 
线 代 表 « 轴 ， 再 用 一 条 与 它 正 交 的 直线 代表 y 轴 。 要 记录 飞 虫 的 位 置 ， 可 以 用 传统 的 定位 
系统 ， 一 条 南北 向 的 轴 、 一 条 东西 向 的 轴 以 及 一 条 上 下 方向 的 轴 。 采 用 其 他 坐标 系统 也 同 
样 可 行 。 像 飞 虫 这 样 的 生物 不 懂得 东西 南北 ， 虽 然 由 于 地 心 引 力 ， 在 某 些 特 殊 情 况 下 ， 它 
们 或 许 能 感知 上 下 方向 。 至 于 天 上 的 星星 ， 谁 能 说 出 什么 是 “正确 ”的 坐标 系 呢 ? 数 世 纪 
以 来 ， 我 们 的 祖先 从 以 地 球 为 中 心 的 观点 转变 成 以 太阳 为 中 心 的 观点 再 到 纯粹 的 相对 论 观 
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点 ， 每 次 观点 的 转变 都 伴随 着 宗教 与 科学 之 间 关系 的 剧变 ， 以 及 对 于 人 类 在 上 帝 所 创造 的 
宇宙 中 所 处 角色 的 痛苦 的 重新 审视 。 

回 到 数据 集 ， 就 像 上 述 例子 所 示 的 那样 ， 没 有 任何 因素 可 以 阻止 你 将 所 有 的 数据 点 转 
换 到 一 个 不 同 的 坐标 系 中 去 。 但 与 上 述 例子 不 同 的 是 ,在 数据 挖掘 中 经 常 存 在 一 个 首选 的 
坐标 系 ， 它 不 是 由 外 在 的 惯例 所 决定 ， 而 是 由 数据 本 身 决 定 的 。 无 论 采 用 何 种 坐标 ， 数 据 
点 在 每 个 方向 上 都 存在 一 个 方差 ， 预 示 了 数据 在 这 个 方向 上 的 平均 值 周 围 的 分 散 程度 。 一 
个 奇怪 的 现象 是 如 果 将 各 个 方向 上 的 方差 相 加 ， 然 后 将 数据 点 转换 到 一 个 不 同 的 坐标 系 中 
去 并 做 同样 的 操作 ， 两 种 情况 下 所 得 的 方差 总 和 是 相同 的 。 只 要 坐标 系 是 正 交 的 (orthog- 
onal) ， 即 每 个 坐标 轴 与 其 他 坐标 轴 都 成 直角 ， 这 种 关系 始终 是 成 立 的 。 

主 成 分 分 析 (principal components analysis) 的 思想 是 使 用 一 个 特殊 的 、 由 数据 点 决定 
的 坐标 系 ， 将 第 一 个 坐标 轴 设 在 数据 点 方差 最 大 的 方向 上 ， 从 而 使 这 个 轴 向 上 的 方差 最 大 
化 。 第 二 个 坐标 轴 与 第 一 个 坐标 轴 正 交 。 在 2 维 空间 没有 其 他 选择 ， 它 的 方向 由 第 一 个 轴 
决定 。 但 在 3 维 空间 ， 它 可 以 在 与 第 一 个 轴 正 交 的 平面 上 的 任意 位 置 ， 尽 管 其 始终 受到 必 
须 与 第 一 个 坐标 轴 正 交 的 限制 ， 但 在 更 高 维 的 空间 甚至 有 更 多 的 选择 。 遵 循 这 个 限制 ， 选 
择 沿 轴 向 的 方差 达到 最 大 值 的 方向 作为 第 二 个 坐标 轴 的 方向 。 如 此 继续 选择 每 个 轴 ， 使 该 
轴 向 的 方差 在 所 剩 方差 中 占 的 份额 是 最 大 的 。 


怎样 实现 呢 ? 给 出 一 个 合适 的 计算 机 程序 并 不 难 实现 ; 给 出 合适 的 数学 工具 ， 也 不 
难 理解 。 技 术 上 ， 对 于 了 解 下 面 术语 的 读者 ， 首 先 计 算 已 被 均值 中 心 化 之 后 坐标 系 上 数 
据点 的 协 方差 矩阵 (covariance matrix) ， 并 进行 对 角 化 (diagonalize) ， 然 后 找到 特征 向 量 
(eigenvector) 。 这 些 就 是 转换 后 的 空间 上 的 坐标 轴 ， 并 按照 特征 值 (eigenvalue) 进行 排 
序 ， 因 为 每 个 特征 值 提 供 了 这 个 轴 向 上 的 方差 。 


图 7-5 展示 了 一 个 含 10 个 数值 属性 ， 即 相应 的 数据 点 是 在 一 个 10 维 空间 上 的 特定 数 
据 集 的 转换 结果 。 想 象 原始 数据 点 分 布 于 一 个 10 维 的 空间 ， 这 是 我 们 画 不 出 来 的 ! 选择 
方差 最 大 的 方向 为 第 一 个 坐标 轴 的 方向 ， 第 二 个 轴 选 择 与 之 正 交 目 方差 次 大 的 方向 ， 以 此 
类 推 。 图 7-5 中 列表 按照 被 选择 的 次 序 ， 依 次 列 出 沿 每 个 新 轴 方向 上 的 方差 。 由 于 方差 的 
总 和 是 一 个 常量 而 与 坐标 系 无 关 ， 所 以 用 方差 占 方差 总 和 百分比 的 形式 列 出 。 我 们 称 为 轴 
分 量 (axis component) ， 每 个 分 量 要 “担负 ” 它 在 方差 中 的 份额 。 图 7-5b 画 出 了 每 个 分 
量 序号 对 应 的 分 量 所 代表 的 方差 。 可 以 使 用 所 有 的 分 量 作为 新 属性 来 进行 数据 控 掘 ， 也 可 
以 只 选择 前 面 几 个 ， 即 主 成 分 (principal component) ， 而 丢弃 其 余 的 分 量 。 在 这 个 例子 中 ， 
3 个 主 分 量 担 负 了 数据 集 84% 的 方差 ; 7 个 便 担负 了 9596 以 上 。 

对 于 数值 型 的 数据 集 ， 在 进行 数据 挖掘 之 前 使 用 主 成 分 分 析 ， 作 为 一 种 数据 清理 及 属 
性 选择 的 形式 是 很 常见 的 。 例 如 ， 你 也 许 想 要 代替 数值 属性 ， 用 主 分 量 轴 或 它们 的 一 个 子 
集 来 代表 某 个 给 定 比例 的 方差 ， 璧 如 说 ，95% 。 注 意 属性 的 规模 会 影响 主 成 分 分 析 的 结 
果 ， 通常 的 做 法 是 先 将 所 有 属性 进行 标准 化 ， 使 它 的 均值 为 0 且 方 差 为 一 个 单位 。 

另 一 种 可 能 性 是 将 主 成 分 分 析 法 递归 地 运用 于 决策 树 学 习 器 中 。 普 通 的 决策 树 学 习 器 
在 每 个 阶段 所 选择 的 分 裂 都 是 平行 于 某 个 轴 方 向 的 。 然 而 ,假设 先进 行 了 一 次 主 成 分 转 
换 ， 学 习 器 则 选择 经 过 转换 的 空间 中 的 一 个 轴 。 这 等 同 于 沿 原始 空间 中 的 某 条 斜 线 进行 分 
裂 。 如 果 每 次 分 裂 之 前 都 重新 进行 转换 ， 结 果 将 是 一 种 多 元 决策 树 ， 它 的 分 裂 方向 与 轴 或 
与 其 他 分 裂 方向 都 是 不 平行 的 。 
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图 7-5 数据 集 的 主 成 分 转换 


7. 3.2 随机 投影 


主 成 分 分 析 将 数据 线性 转换 到 低 维 空间 ， 但 代价 昂贵 。 为 了 找 出 这 个 转换 (一 个 由 协 
方差 矩阵 的 特征 向 量 所 组 成 的 和 矩阵) 花费 的 时 间 将 是 数据 维 数 的 立方 。 这 对 于 属性 数目 庞 
大 的 数据 集 是 不 可 行 的 。 一 个 更 为 简便 的 替代 方法 是 将 数据 随机 投影 到 一 个 维 数 预先 设 定 
好 的 子 空 间 。 找 到 随机 投影 矩阵 是 很 容易 的 。 但 效果 是 否 好 呢 ? 

事实 上 ， 理 论 表 明 随 机 投影 通常 能 相当 好 地 保存 距离 关系 。 这 意味 着 它们 可 以 和 kD 
树 或 球 树 一 起 联合 使 用 ， 在 高 维 空间 进行 近似 最 近邻 搜索 。 首 先 转换 数据 以 减少 属性 数 
目 ， 然 后 为 转换 的 空间 创建 树 。 在 最 近邻 分 类 情形 下 ， 使 用 多 个 随机 甜 阵 来 组 建 一 个 联合 
分 类 器 能 使 结果 更 加 稳定 而 且 更 少 依赖 于 随机 投影 的 选择 。 

为 了 建立 标准 分 类 器 对 数据 进行 预 处 理 时 ， 采 用 随机 投影 的 效果 设 有 经 主 成 分 分 析 仔 
细 选 择 的 效果 好 ， 这 并 不 出 乎 意外 。 但 是 ， 实 验 显 示 这 两 者 的 差别 并 不 太 大 ， 而 且 随 着 维 
数 的 升 高 ， 差 别 呈 减 小 趋势 。 当 然 ， 随 机 投影 计算 成 本 要 低 得 多 。 


7.8.3 偏 最 小 二 乘 回 归 


正如 之 前 提 到 的 那样 ， 主 成 分 分 析 经 常用 于 应 用 学 习 算 法 之 前 的 预 处 理 步 又 。 当 学 习 算 
法 是 线性 回归 时 ， 由 此 产生 的 模型 称 为 主 成 分 回归 (principal components regression) 。 当 主 
成 分 本 身 是 原始 属性 的 线性 组 合 时 ， 主 成 分 回归 的 输出 结果 可 以 依据 原始 属性 重新 表示 。 实 
际 上 ， 如 果 所 有 的 分 量 都 被 使 用 ， 而 不 是 “主要 的 ”部 分 ， 其 结果 与 在 原始 输入 数据 上 应 用 
最 小 二 乘 回 归 的 结果 是 一 样 的 。 使 用 少 部 分 而 不 是 全 部 分 量 集合 的 结果 是 一 个 削减 了 的 回归 。 

偏 最 小 二 乘 (partial least-square) 不 同 于 主 成 分 分 析 的 是 ， 在 构建 坐标 系统 时 ， 和 预 
测 属性 一 样 ， 它 考虑 类 属性 。 其 思想 是 计算 派生 的 方向 ， 这 些 方向 和 有 高 方差 一 样 ， 是 和 
类 有 强 关联 的 。 这 在 为 有 监督 学 习 寻 找 一 个 尽 可 能 小 的 转换 属性 集 时 将 很 有 益处 。 
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有 一 种 迭代 方法 用 于 计算 偏 最 小 二 乘 方向 ， 且 仅仅 涉及 点 积 运 算 。 从 输入 属性 开始 ， 
这 些 属 性 被 标准 化 为 拥有 零 均 值 和 单位 方差 ， 用 于 第 一 个 偏 最 小 二 乘 方向 的 属性 系数 是 通 
过 每 一 个 属性 向 量 和 类 向 量 之 间 依 次 进行 点 积 运 算得 到 的 。 用 同样 的 方法 找到 第 二 个 方 
向 , 但 是 ， 此 时 的 原始 属性 值 被 该 属性 值 与 用 简单 的 单 变 量 回 归 所 得 的 预测 值 之 间 的 差 值 
所 替代 ， 这 个 单 变量 回归 使 用 的 是 第 一 个 方向 作为 属性 预测 的 单一 预测 因子 。 这 些 差 称 为 
FE (residual) 。 用 同样 的 方式 继续 运行 此 流程 以 得 到 其 余 的 方向 ， 用 前 一 次 迭代 所 得 的 
残 差 作为 属性 形成 输入 来 找到 当前 偏 最 小 二 乘 的 方向 。 

有 一 个 成 功 的 例子 可 以 用 来 帮助 理 清 这 个 处 理 流程 。 对 于 表 1-5 中 CPU 数据 的 前 5 个 
实例 来 说 ， 表 7-1a 展示 了 CHMIN, CHMAX (标准化 为 零 均 值 和 单位 方差 之 后 ) 和 PRP 
(未 标准 化 ) 的 值 。 任 务 是 要 依据 其 他 两 种 属性 找到 一 种 表达 方式 用 于 表示 目标 属性 PRP。 
第 一 个 偏 最 小 二 乘 方向 的 属性 系数 是 通过 在 属性 和 类 属性 之 间 依 次 进行 点 积 运算 得 到 的 。 
PRP 和 CHMIN 之 间 的 点 积 是 —0.4472, PRP 和 CHMAX 之 间 的 点 积 是 22.981。 因 此 ， 第 
一 个 偏 最 小 二 乘 方向 为 : 

PLS 1 = - 0. 4472CHMIN + 22.981 CHMAX 
表 7-1b 列 出 了 由 此 公式 得 出 的 PLS 1 的 值 。 





表 7-1 CUP 性 能 数据 中 的 前 5 个 实例 














注 : a) 原始 值 ，b) 第 一 个 偏 最 小 二 乘 方向 ，e) 第 一 个 方向 的 残 差 。 


接 下 的 步骤 是 准备 输入 数据 用 以 找到 第 二 个 偏 最 小 二 乘 方向 。 为 此 ，PSL 1 依次 回归 
到 CHMIN 和 CHMAX， 由 PSL 1 得 到 线性 方程 用 以 单独 预测 这 些 属性 中 的 每 一 个 属性 。 这 
些 系数 通过 计算 PSL 1 与 求解 属性 之 间 的 点 积 得 到 ， 且 用 PSL 1 与 它 自身 的 点 积 来 划分 所 
得 的 结果 。 由 此 产生 的 单 变量 (一元) 回归 方程 为 : 
CHMIN = 0.0483 PSL 1 
CHMAX = 0.0444 PSL 1 
K 7-lc 列 出 的 是 准备 用 于 寻找 第 二 个 偏 最 小 二 乘 方 向 的 CPU 数据 。CHMIN 和 
CHMAX 的 原始 值 被 残 差 所 蔡 代 。 残 差 是 指 原始 值 与 之 前 给 出 的 相应 的 单 变量 (一 元 ) 回 
归 方 程 的 输入 之 间 的 差 值 (目标 值 PRP 仍然 一 样 ) 。 整 个 过 程 重复 地 使 用 这 些 数据 作为 输 
和 人 产生 第 二 个 偏 最 小 二 乘 方向 ， 即 
PSL 2 = - 23.6002CHMIN +- 0. 4593CHMAX 
在 最 后 的 偏 最 小 二 乘 方向 确定 了 之 后 ， 属 性 的 残 差 都 为 0。 这 反映 了 一 个 事实 ， 正 如 主 成 
分 分 析 一 样 ， 所 有 方向 的 全 集 担负 了 原始 数据 的 所 有 方差 。 
当 把 偏 最 小 二 乘 方向 作为 输入 用 于 线性 回归 时 ， 结 果 模 型 称 为 偏 最 小 二 乘 回归 模型 
(partial least-squares regression model), 。 和 主 成 分 回归 一 样 ， 若 使 用 所 有 的 方向 ， 其 结果 与 
在 原始 数据 上 应 用 线性 回归 所 得 的 结果 是 一 样 的 。 
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7.9.4 从 文本 到 属性 向 量 


1r 2.4 节 中 曾 介绍 了 包含 文本 块 的 字符 串 属 性 并 指出 字符 串 属 性 值 经 常 是 一 个 完整 的 
文档 。 本 质 上 ， 字 符 串 属性 是 未 指明 属性 值 数 目的 名 目 属性 。 如 果 只 是 简单 地 把 它们 当做 
名 目 属性 来 处 理 ， 模 型 可 依据 两 个 字符 串 属 性 值 是 否 相同 来 建立 。 但 这 种 方式 没有 捕捉 到 
任何 字符 串 内 在 的 结构 ， 或 者 显示 出 它 所 代表 文本 的 任何 有 意义 方面 。 

你 可 以 想象 将 字符 串 属性 中 的 文本 分 解 为 段落 、 句 子 或 词组 。 一 般 地 ， 单 词 是 最 有 用 
的 单元 。 字 符 串 属性 中 的 文本 通常 是 一 个 单词 序列 ， 文 本 所 包含 的 单词 通常 可 作为 它 最 好 
的 代表 。 例 如 ， 可 将 字符 串 属性 转换 为 一 系列 的 数值 属性 ， 每 个 单词 用 一 个 数值 属性 ， 代 
表 这 个 单词 出 现 的 频率 。 单 词 的 集合 ， 即 新 属性 的 集合 ， 是 由 数据 集 决定 的 ， 它 的 数量 是 
相当 大 的 。 如 果 存 在 多 个 需要 分 别处 理 的 字符 串 属 性 ， 新 属性 的 名 称 必须 区 别 开 来 ， 或 许 
可 采用 自 定义 的 前 级 。 

转变 为 单词 ， 即 分 词 (tokenization) ， 并 不 是 像 听 起 来 那么 简单 的 操作 。 记 号 可 以 由 
连续 的 字母 序列 组 成 ,丢弃 非 字母 字符 。 如 果 有 数字 ， 数 字 序 列 也 要 保留 。 数 字 可 能 涉及 
+ 号 或 -号 、 小 数 点 以 及 咽 次 方 。 换 句 话 说， 就 是 根据 某 种 定义 好 的 数字 语法 对 它们 进行 
解析 。 一 个 字母 、 数 字 序列 也 许 当 做 一 个 单独 的 记号 。 也 许 空 格 字 符 可 作为 记号 的 分 隔 
符 ; 也 许 空白 〈 即 包括 tab 键 和 换行 符 ) 是 分 隔 符 ; 也 许 标点 符号 也 是 分 隔 符 。 句 点 符 很 
难处 理 : 有 时 它们 应 该 作为 单词 的 一 部 分 来 考虑 〈 与 姓名 首 字 母 在 一 起 、 与 称呼 在 一 起 、 
缩写 以 及 数字 ) ， 但 有 时 又 不 能 那样 〈 如 果 它 们 是 句子 的 分 隔 符 ) 。 连 字号 及 省 略 号 也 有 
类 似 问 题 。 

所 有 单词 在 加 入 词汇 表 前 ， 也 许 都 要 先 转变 为 小 写 。 在 预先 设 定 的 功能 词 或 停 用 词 
(stopwords) (如 the, and, but) 的 固定 清单 上 的 词 可 以 忽略 。 注 意 停 用 词 清单 是 取决 于 
语言 的 。 事 实 上 ， 大 写 习惯 〈 德 语 大 写 的 都 是 名 词 ) 、 数 字 语 法 ( 欧洲 使 用 逗号 代表 小 数 
点 )、 标 点 符号 习惯 (西班牙 语 疑 问 句 在 句 首 加 问号 ) ， 当 然 还 有 字符 集 本 身 ， 都 是 取决 
于 语言 的 。 总 之 ,文本 是 很 复杂 的 。 

低频 率 词 ， 璧 如 只 出 现 一 次 的 词 (hapaxlegomena) ©, AREF. AMMA 
词 之 后 ,保留 频率 最 高 的 有 个 单词 ， 或 者 为 每 个 类 别 保留 频率 最 高 的 个 单词 ， 是 有 益 
处 的 。 

有 个 问题 伴随 着 所 有 这 些 分 词 选项 ， 即 每 个 单词 属性 的 属性 值 应 是 什么 ? 属性 值 可 以 
是 单词 累计 数 ， 即 这 个 单词 在 字符 串 中 出 现 的 次 数 ， 也 可 以 只 是 简单 表明 出 现 或 未 出 现 。 
可 以 对 单词 频率 进行 规范 化 使 每 个 文件 的 属性 向 量具 有 相等 的 欧 几 里 得 长 度 。 另 一 种 方法 
是 ,将 文件 j 中 的 单词 ;所 出 现 的 频率 方 按照 各 种 不 同 的 标准 方式 进行 转换 。 一 种 标准 的 
对 数 词 频率 度量 方法 是 log (1 + 方 ) 。 在 信息 检索 中 广泛 应 用 的 度量 方法 是 TF x IDF， 即 
“ 词 频率 乘 以 文件 频率 的 倒数 ” 。 

这 里 ， 词 频率 被 一 个 因数 调整 ， 这 个 因数 取决 于 这 个 词 被 其 他 文件 运用 的 普及 度 。 
TF x IDF 度量 方法 的 标准 定义 如 下 : 





文件 数量 
Jls ae Ba i 的 文件 数量 





© 只 出 现 一 次 的 词 (hapaxlegomena) 是 指 在 给 定 的 文本 语料库 中 只 出 现 一 次 的 词 。 
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主要 思想 是 文件 的 特征 基本 上 是 由 其 中 经 常 出 现 的 单词 确定 的 ， 这 是 公式 中 的 第 一 个 因 
T; 除去 那些 在 每 个 文件 或 几乎 每 个 文件 中 都 用 到 的 ， 但 对 于 区 分 文件 毫 无 用 处 的 单词 ， 
这 是 公式 的 第 二 个 因子 。TF x IDF 不 仅仅 特 指 这 个 公式 ， 而 且 泛 指 这 一 种 类 的 度量 方法 。 
例如 ， 频 率 因子 方 也 可 以 用 对 数 词 频率 log(1 +f) 来 代替 。 


7.3.5 时 间 序 列 





在 时 间 序 列 数据 中 ， 每 个 实例 代表 不 同 的 时 间 间 隔 ， 属 性 给 出 了 与 该 时 刻 所 对 应 的 
值 ， 如 天 气 预报 或 股市 行情 预测 。 有 时 需要 能 将 当前 实例 的 一 个 属性 值 用 过 去 的 或 将 来 的 
实例 所 对 应 的 属性 值 来 替换 。 更 常用 的 是 用 当前 实例 与 过 去 实例 属性 值 的 差 值 来 蔡 换 当前 
的 属性 值 。 例 如 ， 当 前 实例 与 前 一 个 实例 属性 值 的 差 值 ， 常 称 为 Delta， 通 常 比 属性 值 本 
身 含有 更 多 信息 量 。 第 一 个 实例 由 于 时 间 位 移 值 未 知 ， 可 以 删除 或 用 缺失 值 来 代替 。 从 本 
质 上 来 说 ， 差 值 是 以 由 时 间 间 隔 大 小 所 决定 的 某 个 常量 为 量度 的 第 一 次 求 导 ， 连 续 的 Del- 
ta 转换 即 为 更 高 次 的 求 导 。 

在 某 些 时 间 序 列 中 ， 实 例 不 代表 定期 取样 ， 每 个 实例 的 时 间 是 由 时 间 惟 (timestamp) 
属性 给 出 的 。 时 间 戳 之 间 的 差 是 实例 的 时 间 间 隅 大 小 ， 如 果 要 取 其 他 属性 的 连续 差 值 ， 必 
须 除 以 间隙 大 小 以 使 求 导 规范 化 。 另 一 种 情形 是 每 个 属性 可 以 代表 不 同 的 时 间 ， 而 不 是 每 
个 实例 代表 不 同 的 时 间 ， 因 此 时 间 序 列 是 从 一 个 属性 到 下 一 个 属性 ， 而 不 是 从 一 个 实例 到 
下 一 个 实例 。 那 么 ， 如 果 需 要 差 值 ， 必 须 取 每 个 实例 的 一 个 属性 和 下 一 个 属性 之 间 的 
差 值 。 


7.4 抽样 


在 很 多 涉及 大 量 数据 的 应 用 中 ， 提 出 一 种 更 小 规模 的 随机 抽样 用 于 处 理 是 很 有 必要 
的 。 随 机 抽样 是 指 ， 原 始 数据 中 的 每 一 个 实例 被 抽 到 的 概率 是 相同 的 。 给 定 W 个 实例 ， 任 
意 给 定 大 小 的 一 个 样本 是 很 容易 得 到 的 。 仅 仅 需 要 均匀 地 生成 1 ~ IN 之 间 的 随机 整数 ， 然 
后 依据 这 个 整数 检索 相应 的 实例 直到 收集 到 合适 数目 的 实例 为 止 。 这 种 是 有 放 回 抽样 
(sampling with replacement) ， 因 为 同一 个 实例 可 能 被 多 次 选中 〈 实 际 上 , 在 5.4 节 中 自助 
法 就 是 使 用 的 有 放 回 抽样 ) 。 对 于 无 放 回 抽样 (sampling without replacement) ， 仅 仅 注 意 ， 
在 选择 每 一 个 实例 时 ， 判 断 其 是 否 已 被 选择 ， 如 果 已 被 选 就 放弃 第 二 次 选择 。 如 果 样 本 的 
大 少 比 全 部 数据 集 小 得 多 ， 则 有 放 回 抽样 和 无 放 回 抽样 之 间 的 差别 不 大 。 


Lys 


抽样 是 非常 简单 的 算法 ， 它 只 需 少 量 的 讨论 和 解释 。 但 是 ， 在 生成 给 定 大 小 的 随机 样 
本 的 情况 下 会 存在 一 些 挑战 。 如 果 训 练 实例 是 一 个 接着 一 个 地 给 出 ， 而 实例 的 总 数 ， 即 V 
的 值 是 预先 不 知道 的 会 怎样 呢 ? 或 者 ， 假 设 需要 能 够 随时 从 连续 的 实例 流 中 取得 一 个 给 定 
大 小 的 样本 ， 并 在 这 个 样本 上 执行 一 个 学 习 算法 ， 而 不 重复 执行 整个 抽样 操作 的 情况 呢 ? 
再 或 者 ， 训 练 实例 的 数量 十 分 巨大 以 至 于 不 能 在 执行 抽样 之 前 全 部 保存 所 有 实例 的 情 
况 呢 ? 

所 有 以 上 出 现 的 情况 都 要 求 有 一 种 方法 ， 可 以 在 没有 存储 所 有 实例 的 输入 流 中 生成 一 
个 随机 样本 ， 并 且 不 必 等 到 最 后 一 个 实例 到 达 之 后 才 执 行 抽样 程序 。 在 这 种 情况 下 ， 生 成 
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一 个 给 定 大 小 的 随机 样本 且 同 时 保证 每 一 个 实例 有 相同 的 机 会 被 选中 可 以 实现 吗 ? 答案 是 
肯定 的 。 更 值得 高 兴 的 是 ， 一 种 简单 的 算法 就 可 以 做 到 。 

一 种 思想 是 用 一 个 大 小 为 > 的 “ 蓄 水 池 ”， 即 需要 生成 的 样本 的 大 小 。 开 始 时 ， 连 续 
地 从 输入 流 中 收集 实例 直到 “ 蓄 水 池 ” 满 为 止 。 如 果 输 入 流 在 此 时 停止 ， 则 得 到 与 输入 流 
大 小 一 样 为 r 的 随机 样本 。 但 是 ， 在 大 多 数 的 情况 下 会 有 更 多 的 实例 到 达 。 下 一 个 实例 被 
包含 在 样本 里 的 概率 为 r/(r+1) 一 一 实际 上 ， 若 输入 流 停 止 在 这 里 ，(N =r+1)， 那 么 
任何 一 个 实例 被 包含 在 样本 里 概率 都 为 此 概率 。 因 此 ， 根 据 (Cr+1) 的 概率 用 新 到 达 的 
实例 替换 样本 池 中 的 一 个 随机 样本 。 以 同样 的 方式 继续 ， 用 再 下 一 个 新 到 达 的 实例 替换 样 
本 池 中 元 素 的 概率 为 r/(r+2)， 以 此 类 推 。 一 般 来 说 ， 第 i 个 实例 被 替换 到 样本 池 中 随机 
位 置 的 概率 为 r/i。 这 很 容易 通过 数学 归纳 法 证 明 ， 一旦 这 个 实例 被 处 理 ， 任 何 一 个 特定 
实例 被 包含 在 样本 池 中 的 概率 都 是 一 样 的 ， 即 为 r/i。 因 此 ， 在 处 理 过 程 的 任意 点 ， 样 本 
池 都 包含 有 大 小 为 的 随机 样本 。 也 可 以 在 任意 时 刻 停止 ， 同 时 保证 样本 池 都 有 期 望 的 随 
机 样本 数 。 

该 方法 为 无 放 回 抽样 。 有 放 回 抽样 更 难 一 些 。 尽 管 对 于 大 数据 集 和 小 样本 池 来 说 ， 两 
者 之 间 几 乎 没有 差异 。 但 是 ， 如 果 确 实 需 要 又 放 回 抽样 大 小 为 r 的 样本 ,可 以 设 定 7 个 独 
立 的 样本 池 ， 每 个 样本 池 的 大 小 为 1。 对 所 有 的 样本 池 同 步 运行 此 算法 ， 在 任何 时 候 ， 它 
们 的 并 集 即 是 一 个 有 放 回 抽样 的 随机 样本 。 


7.5 数据 清洗 


一 个 令 实 际 数据 挖掘 工作 头疼 的 问题 便 是 数据 的 质量 低劣 。 在 大 型 数据 库 中 ， 错 误 更 
是 常见 。 属 性 值 、 类 值 经 常 是 不 可 靠 和 错误 的 。 一 种 解决 此 问题 的 方法 是 艰辛 地 检查 数 
据 ， 然 而 数据 挖掘 技术 本 身 也 能 对 此 问题 的 解决 有 所 帮助 。 


7.5.1 改进 决策 树 


一 个 令 人 惊讶 的 事实 是 利用 训练 数据 进行 决策 树 的 归纳 ， 可 以 使 树 简化 且 不 损失 准确 
率 ， 可 通过 丢弃 被 错误 分 类 的 训练 实例 ， 重 新 学 习 ， 然 后 重复 直到 没有 错误 分 类 的 实例 为 
止 来 实现 。 在 某 些 标准 数据 集 上 的 实验 显示 ， 这 几乎 不 影响 标准 的 决策 树 归纳 法 C4.5 的 
分 类 正确 率 。 有 时 性 能 略 有 提高 ， 有 时 上 略微 变 差 。 差 别 不 显著 ， 即 使 有 显著 差别 ， 两 者 都 
有 各 自 的 优势 。 这 种 技术 影响 的 是 决策 树 的 大 小 。 虽 然 性 能 大 致 相当 ， 但 最 终 的 决策 树 比 
原来 的 总 是 小 得 多 。 这 是 什么 原因 呢 ? 当 决 策 树 归 纳 法 剪 枝 掉 某 一 子 树 时 ， 它 应 用 统计 测 
试 数据 来 判定 这 个 子 树 是 和 否 “ 合 理 " 。 剪 梳 决 定 在 训练 实例 分 类 的 正确 性 上 做 出 少量 牺牲 ， 
相信 这 样 做 将 提高 测试 集 上 的 性 能 。 有 些 未 剪 枝 树 能 正确 分 类 的 训练 实例 ， 现 在 用 经 过 剪 
枝 的 树 将 会 被 错误 分 类 。 实 际 上 ， 决 策 树 将 忽略 这 些 训练 实例 。 

然而 ， 这 个 决策 只 是 应 用 于 局 部 ， 只 在 被 剪 枝 的 子 树 中 。 它 的 影响 没有 人 允许 往 树 的 上 
层 渗透 ， 那 样 也许 会 导致 选择 出 不 同 的 分 支 属性 。 从 训练 集中 去 除 被 错误 分 类 的 实例 并 重 
新 学 习 决 策 树 ， 使 剪 枝 决策 做 出 合理 的 结论 。 如 果 剪 枝 策略 较 好 ， 那 么 它 不 会 破坏 性 能 ， 
甚至 由 于 允许 选择 更 好 的 属性 还 能 提高 性 能 。 

毫 无 疑问 ， 进 行 专家 咨询 效果 更 好 。 对 错误 分 类 的 训练 实例 进行 验证 ， 发 现实 例 是 错 
误 的 可 将 其 删除 ， 或 者 最 好 是 可 以 进行 修正 。 
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注意 我 们 假设 实例 没有 出 现任 何 系统 上 的 错误 分 类 。 如 果实 例 在 训练 集 和 测试 集 上 都 
被 系统 性 地 破坏 ， 例 如 ， 一 个 类 值 可 能 被 另 一 个 类 值 替换 了 ， 那 么 只 能 期 望 在 错误 的 训练 
集 上 训练 会 在 〈 同 样 也 是 错误 的 ) 测试 集 上 产生 较 好 的 性 能 。 

有 趣 的 是 ， 人 们 发 现 当 往 数据 中 人 为 地 添加 属性 噪声 时 〈 不 是 类 噪声 ) ， 如 果 在 训练 集 
中 也 添加 了 同样 的 属性 噪声 ， 则 在 测试 集 上 的 性 能 会 提高 。 换 句 话 说， 当 存在 属性 噪声 问题 
时 ， 如 果 性 能 测试 将 要 在 “不 清洁 ”的 数据 上 进行 ,那么 用 一 个 “清洁 ”的 训练 集 来 训练 
并 不 好 。 如 果 有 机 会 ， 一 种 学 习 方法 在 某 种 程度 上 能 够 学 习 对 属性 噪声 进行 稍 许 补偿 。 从 本 
质 上 来 说 ， 它 能 学 习 哪 些 属 性 不 可 靠 ， 如 果 都 不 可 靠 ， 则 学 习 怎 样 最 好 地 利用 它们 产生 一 个 
更 可 靠 的 结果 。 将 训练 集 上 的 属性 噪声 去 除 就 失去 了 怎样 最 好 地 抗 噪声 的 学 习 机 会 。 但 是 对 
于 类 噪声 〈 而 不 是 属性 噪声 ) ， 如 果 可 能 ， 最 好 还 是 使 用 无 噪声 的 实例 进行 训练 。 


7.5.2 稳健 回归 


历年 来 人 们 已 经 知道 了 噪声 数据 在 线性 回归 中 所 造成 的 问题 。 统 计 学 家 经 常 检 查 数 据 
中 的 离 群 点 (outlier) 并 人 工 将 它们 去 除 。 在 线性 回归 中 ， 离 群 点 可 从 视觉 上 辨别 出 来 ， 
虽然 不 是 完全 清楚 这 个 离 群 点 是 一 个 错误 ， 或 者 只 是 一 个 不 寻常 但 正确 的 值 。 离 群 点 大 大 
影响 了 最 小 二 乘 回归 ， 因 为 距离 的 平方 加 强 了 远离 回归 线 的 数据 点 的 影响 。 

处 理 离 群 点 的 统计 方法 称 为 稳健 (robust) 回归 。 使 回归 更 为 稳健 的 一 种 方法 是 采用 
绝对 值 距离 度量 来 代替 通常 使 用 的 二 乘 方 距离 度量 。 这 削弱 了 离 群 点 的 影响 。 另 一 种 可 能 
的 方法 是 试图 自动 识别 离 群 点 ， 把 它 移 出 考虑 范围 。 例 如 ， 可 以 形成 一 条 回归 线 ， 然 后 移 
出 离 回 归 线 较 远 的 10% 的 数据 点 。 第 三 个 方法 是 使 到 回归 线 差 的 中 值 (median) 二 乘 
(而 不 是 平均 值 ) 最 小 化 。 结 论 是 这 种 估计 器 非常 稳健 ， 真 正 是 既 在 x 轴 方 向 对 离 群 点 进 
行 处 理 ， 又 在 离 群 点 常规 考虑 方向 y 轴 方 向 进行 处 理 。 

用 于 描述 稳健 回归 的 常用 数据 集 是 从 1950 年 到 1973 年 比利时 的 国际 长 途 电话 图 ， 如 
图 7-6 所 示 。 这 个 数据 集 来 源 于 比利时 经 济 部 发 布 的 比利时 统计 调查 。 这 个 图 似乎 显示 历 
年 来 (国际 长 途 电话 数量 ) 呈 上 升 趋势 ， 但 从 1964 年 到 1969 年 这 段 时 间 数 据点 图 反常 。 
实际 上 ， 这 段 时 间 的 数据 被 错误 地 记录 为 电话 总 分 钟 数 。1963 年 和 1970 年 也 受到 部 分 影 
响 。 这 个 错误 造成 y 轴 方 向 上 相当 大 部 分 的 离 群 点 。 
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最 小 二 乘法 


电话 数量 〈 千 万 ) 


最 小 中 值 二 乘法 
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7-6 1950 ~ 1973 年 比利时 国际 长 途 电话 数量 
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由 于 这 些 反常 数据 ， 普 通 最 小 二 乘 回归 线 受 到 严重 影响 并 不 奇怪 。 然 而 ， 最 小 中 值 二 
乘 回归 线 却 明 显 不 受 干 扰 。 对 于 这 条 线 ， 有 一 个 简单 而 自然 的 说 明 。 从 几何 学 角度 看 ， 它 
相当 于 寻找 一 条 覆盖 半数 观测 点 的 最 窄带 ， 带 的 厚度 是 从 垂直 方向 衡量 的 。 这 条 罕 带 在 
图 7-6 中 显示 为 灰色 。 最 小 中 值 二 乘 回归 线 则 位 于 这 条 罕 带 的 中 间 。 这 个 术语 比 普通 的 最 
小 二 乘 回 归 定 义 更 容易 解释 和 显示 。 不 幸 的 是 ， 基 于 中 值 的 回归 技术 有 个 严重 缺陷 : 它们 
造成 很 高 的 计算 成 本 ， 面 对 实际 问题 经 常 是 不 可 行 的 。 


7.5.9 检测 异常 


任何 自动 检测 明显 错误 数据 的 一 个 严重 问题 是 把 有 价值 的 东西 和 不 需要 的 东西 一 起 
扔 掉 。 由 于 缺乏 咨询 专家 ， 没 有 办 法 知道 某 个 实例 真 的 是 一 个 错误 或 者 只 是 所 应 用 的 模 
型 不 适合 它 。 在 统计 回归 中 ， 可 视 化 能 有 所 帮助 。 如 果 要 拟 合 的 是 一 条 错误 的 曲线 ， 即 
使 不 是 专家 通常 也 能 明显 看 出 ， 比 如 要 使 一 条 直线 拟 合 位 于 抛物 线 上 的 数据 。 图 7-6 的 
离 群 点 当然 是 非常 明显 的 。 但 大 多 数 的 分 类 问题 并 不 易于 可 视 化 :“ 模 型 种 类 ” 比 回归 
线 要 更 微妙 。 虽 然 对 于 大 多 数 的 标准 数据 集 来 说 ， 丢 弃 不 符合 决策 树 的 实例 能 获得 较 好 
的 结果 ， 但 在 处 理 某 个 新 数据 集 时 ， 这 不 一 定 是 很 合适 的 。 也 许 新 数据 集 只 是 不 适合 用 
决策 树 模型 。 

一 种 人 们 已 经 尝试 的 方法 是 使 用 几 种 不 同 的 学 习 方 案 ， 如 一 个 决策 树 、 一 个 最 近邻 学 
习 器 和 一 个 线性 判别 函数 ， 过 滤 数据 。 保 守 的 策略 是 用 这 三 种 方法 分 类 都 失败 时 才 可 判定 
一 个 实例 是 错误 的 并 将 其 从 数据 中 去 除 。 在 某 些 情况 下 ， 用 这 种 方法 过 滤 数 据 ， 然 后 使 用 
过 滤 的 数据 作为 最 终 学 习 方 案 的 输入 ， 这 与 简单 地 使 这 三 个 学 习 方 案 ， 然 后 进行 投票 产生 
最 终结 果 相 比较 ， 能 获得 更 好 的 性 能 。 三 种 学 习 方法 在 过 滤 的 〈fitered) 数据 上 进行 训 
练 ， 然 后 投票 ， 这 样 能 产生 更 好 的 效果 。 然 而 ， 投 票 技术 存在 一 个 危险 ， 某 些 学 习 算 法 比 
较 适 合 某 种 类 型 的 数据 ， 因 此 最 适合 的 方法 也 许 能 决定 投票 结果 ! 我 们 将 在 8.7 节 考 察 一 
种 更 为 精细 的 方法 来 组 合 不 同 分 类 器 的 输出 结果 ， 称 为 堆栈 法 (stacking)。 与 平时 一 样 ， 
了 解数 据 ， 并 用 不 同 的 方法 来 考察 数据 。 

过 滤 方 法 的 一 个 可 能 危险 是 它们 可 能 会 牺牲 某 个 类 别 (或 一 组 类 别 ) 的 实例 来 提高 剩 
余 类 别 的 正确 性 。 尽 管 没 有 什么 通用 的 方法 来 防止 这 一 点 ,但 实践 发 现 这 并 不 是 个 常见 
问题 。 

最 后 ， 值 得 再 次 提醒 注意 的 是 ， 首 先 要 尽力 得 到 合适 的 数据 ， 自 动 过 滤 只 是 一 种 作用 
极其 有 限 的 替代 。 如 果 在 实践 中 太 耗 时 间 和 成 本 ， 可 以 人 工 检查 那些 由 过 滤器 鉴别 出 来 的 
可 疑 实例 。 


7.5.4 一 分 类 学 习 


在 大 多 数 的 分 类 问题 中 ， 训 练 数据 提供 所 有 的 在 预测 时 能 够 出 现 的 类 ， 学 习 算 法 利用 
这 些 分 别 属于 不 同类 的 数据 决定 决策 边界 来 区 分 它们 。 但 是 ， 有 些 问 题 在 训练 时 ， 实 例 只 
具有 单一 的 类 ， 在 预测 时 ， 新 的 不 知道 类 标的 实例 可 能 属于 目标 类 ， 也 可 能 属于 一 个 在 训 
练 时 不 知道 的 新 类 。 因 此 就 可 能 存在 两 种 不 同 的 预测 : 目标 类 (target), ， 指 一 个 实例 属于 
训练 时 用 到 的 类 ; 未 知 类 (unknown) ， 指 实例 不 属于 目标 类 。 这 种 类 型 的 学 习 问 题 称 为 一 


分 类 问题 (one-class.classification) 。 
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在 很 多 情况 下 ， 一 分 类 问题 可 以 重新 表示 为 二 分 类 问题 ， 因 为 属于 其 他 类 的 数据 可 以 
用 于 训练 模型 。 但 是 ， 有 些 真 实 的 一 分 类 应 用 在 训练 时 不 能 或 者 不 适合 用 于 负 例 数据 。 例 
如 ， 考 察 密码 硬化 ， 一 个 生物 识别 系统 加 强 计算 机 的 登录 过 程 ， 不 仅 要 求 输入 正确 的 密 
码 ， 而 且 要 求 输入 匹配 正确 的 打字 节奏 。 这 是 一 种 一 分 类 问题 ， 一 个 用 户 必须 通过 验证 ， 
且 在 训练 时 只 有 来 自 此 用 户 的 数据 是 可 用 的 ， 不 能 要 求 其 他 任何 一 个 没有 通过 验证 的 用 户 
提供 数据 。 

即使 在 一 些 应 用 中 ， 训 练 时 属于 不 同类 的 实例 都 是 可 用 的 ， 但 在 考察 时 最 好 只 关注 目 
标 类 。 比 如 ， 在 预测 时 新 的 类 可 能 会 出 现 ， 且 这 个 类 不 同 于 所 有 在 训练 时 出 现 过 的 类 。 继 
续 考 虑 打字 节奏 的 例子 ,假设 需要 在 一 个 文本 不 固定 的 情况 下 识别 打字 员 ， 通 过 在 一 块 自 
由 文本 上 的 节奏 模式 ， 当 前 打字 员 将 被 验证 为 他 所 宣称 的 (打字 员 )。 这 个 任务 从 根本 上 
不 同 于 从 一 组 用 户 里 识别 一 个 用 户 ， 因 为 必须 准备 拒绝 之 前 从 未 在 系统 中 出 现 过 的 攻 
击 者 。 

离 群 点 检测 

一 分 类 问题 通常 也 称 为 离 群 点 (outlier) 或 奇异 点 检测 ， 因 为 此 学 习 算 法 用 于 区 分 训 
练 数 据 分 布 中 正常 和 不 正常 出 现 的 数据 。 本 节 的 前 部 分 讨论 通过 用 绝对 值 距离 代替 普通 的 
平方 距离 来 使 回归 更 为 稳健 ， 并 以 此 减 小 离 群 点 的 影响 ， 并 讨论 使 用 多 种 不 同 的 学 习 方案 
实现 异常 检测 。 

一 种 通用 的 用 于 一 分 类 问题 的 统计 方法 是 ， 如 果实 例 与 p% 的 训练 数据 的 距离 大 于 d, 
则 该 实例 被 视 为 孤立 点 。 或 者 ， 通 过 拟 合 某 个 统计 分 布 为 目标 类 估计 一 个 概率 密度 ， 比 如 
高 斯 分 布 ， 以 此 训练 数据 。 任 何 概率 值 较 低 的 测试 实例 都 可 以 被 标记 为 离 群 点 。 困 难 在 于 
为 手 上 的 数据 找到 一 个 合适 的 统计 分 布 。 如 果 这 点 不 能 做 到 ， 可 以 采用 非 参 数 方法 ， 如 核 
密度 估计 (在 4.2 节 结 尾 处 提 到 ) 。 密 度 估 计 方 法 的 一 个 优点 是 在 预测 时 ， 靖 值 可 以 调控 
以 此 得 到 合适 比例 的 离 群 点 。 

多 类 分 类 器 可 以 进行 调整 以 适应 一 分 类 情况 ,根据 目标 数据 寻找 一 个 边界 ， 并 认为 出 
现在 边界 之 外 的 就 是 离 群 点 。 这 个 边界 可 以 通过 调整 已 有 的 多 类 分 类 器 的 内 部 工作 来 生 
成 ， 比 如 支持 向 量 机 。 这 些 方法 很 大 程度 上 依赖 于 参数 ， 参 数 是 用 来 决定 有 多 少 比例 的 目 
标 数据 可 能 被 分 类 成 离 群 点 。 如 果 参 数 选择 太 过 保守 谨慎 ， 目 标 类 中 的 数据 会 被 错误 地 排 
除 。 如 果 参 数 选择 太 过 随意 ， 模 型 将 会 过 度 拟 合并 丢弃 太 多 的 合法 数据 。 丢 弃 率 在 测试 时 
是 不 能 更 改 的 ， 因 为 在 训练 时 就 需要 选择 一 个 合适 的 丢弃 率 参数 值 。 

生成 人 工 数据 

有 别 于 通过 调整 某 一 个 多 类 分 类 器 的 内 部 工作 来 直接 生成 一 分 类 的 决策 边界 ， 另 一 种 
可 能 的 方法 是 为 离 群 点 生成 人 工 数据 ， 然 后 再 应 用 任何 一 种 已 有 的 分 类 器 。 这 种 方法 不 仅 
人 允许 使 用 任意 一 种 分 类 器 ， 而 且 如 果 分 类 器 产生 的 是 类 概率 估计 ， 那 么 丢弃 率 也 可 以 通过 
修改 阔 值 来 调整 。 

最 直接 的 方法 是 生成 均匀 分 布 的 数据 ， 然 后 学 习 一 种 可 以 从 目标 中 辨别 出 这 些 数据 的 
分 类 器 。 然 而 ， 不 同 的 决策 边界 会 得 到 不 同 数量 的 人 工 数 据 。 如 果 得 到 过 多 的 人 工 数据 将 
会 淹没 目标 类 ， 从 而 使 学 习 算 法 总 是 预测 到 人 工 数据 类 。 如 果 学 习 的 目的 被 视 为 是 精确 的 
类 概率 估计 而 不 是 最 小 化 分 类 错误 ， 则 这 个 问题 可 以 避免 。 比 如 ， 装 袋 决 策 树 (将 在 8. 2 
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节 讨 论 ) 已 被 证 明 可 以 用 来 产生 很 好 的 类 概率 估计 。 
| 一 旦 用 这 种 方法 获得 一 个 类 概率 估计 模型 ， 目 标 类 的 不 同 阔 值 的 概率 估计 就 对 应 于 目 

标 类 周围 的 不 同 决策 边界 。 这 意味 着 ， 用 于 一 分 类 问题 的 密度 估计 法 ， 在 预测 阶段 ， 离 群 
点 的 比例 可 以 调整 ， 由 此 可 以 为 手头 已 有 的 应 用 程序 产生 一 个 适当 的 结果 。 

还 有 一 个 重要 的 问题 。 随 着 属性 数目 的 增加 ， 产 生 足 够 的 人 工 数 据 来 获得 实例 空间 适 
当 的 覆盖 率 变 得 不 可 行 ， 同 时 一 个 特定 的 实例 出 现在 目标 类 内 部 或 者 靠近 目标 类 的 概率 减 
少 为 一 个 点 ,使 得 任何 形式 的 (用 于 区 分 此 实例 的 ) 辨别 法 都 不 可 用 。 

解决 办 法 是 使 生成 的 人 工 数 据 尽 可 能 地 靠近 目标 类 。 在 这 种 情况 下 ， 由 于 不 再 是 均匀 
分 布 ， 这 种 人 工 数据 分 布 ， 称 为 “参考 ” 分布， 所 以 在 为 由 此 产生 的 一 分 类 模型 计算 从 属 
分 数 时 必须 要 考虑 此 分 布 。 换 名 话说 ， 二 分 器 的 类 概率 估计 必须 结合 此 参考 分 布 来 获得 目 
标 类 的 从 属 分 数 。 


为 了 更 进一步 详细 阐述 ， 用 了 表示 训练 数据 的 目标 类 ， 并 寻找 一 个 一 分 类 模型 ，4 
表示 人 工 数据 类 ， 用 于 利用 一 个 已 知 的 参考 分 布 生成 数据 。 需 要 得 到 的 是 Pr[X|7]， 
即 目标 类 的 密度 函数 ， 当 然 ， 对 于 每 一 个 实例 X， 已 知 Pr[X |4]， 即 参考 分 布 的 密度 
函数 。 假 设 此 时 已 知 真 正 的 类 概率 密度 函数 Pr[7 |X]。 实 际 上 ， 需 要 使 用 从 训练 数据 
学 习 所 得 的 类 概率 估计 顺 来 估计 这 个 函数 。 一 种 简单 的 贝 叶 斯 规则 应 用 可 用 于 表示 
Pr[ T], Pr[T |X], Pr[X|A] #9 Pr[X|T]: 

(1 一 了 [了 T | X]. 
Pr[T](1 - Pr[ T|X]) 

为 了 在 实际 中 使 用 此 等 式 ， 选 择 Pr[X 14]， 通 过 它 生 成 用 户 指定 数量 的 人 工 数 
据 ， 将 它 标记 为 4， 同 时 结合 它 与 目标 类 训练 集 的 实例 ， 目 标 类 标记 为 7。 目标 实例 的 
比例 是 Pr[7] 的 估计 ， 一 个 标准 的 学 习 算 法 可 应 用 于 此 二 类 数据 集 获得 类 概率 密度 估 
计 器 Pr[ T|X]. 假设 任意 特定 实例 X 的 Pr[X14] 的 值 是 可 以 计算 出 的 ， 则 计算 出 用 
于 每 个 实例 的 目标 密度 函数 Pr[ X | T]. 的 估计 就 轻而易举 了 。 执 行 分 类 时 需要 选择 
一 个 合适 的 阔 值 ， 以 调整 优化 丢弃 率 以 得 到 任何 想 要 的 值 。 

仍然 存在 一 个 问题 ， 那 就 是 ， 怎 样 选择 参考 密度 Pr[X |4] 。 需 要 通过 它 生成 人 
工 数据 并 计算 每 个 实例 的 Pr[X14] 值 。 另 一 个 需求 是 生成 的 数据 必须 靠近 目标 
类 。 实 际 上 ， 理 想 的 参考 密度 是 和 目标 密度 完全 一 样 的 ， 在 这 种 情况 下 ，Pr[T1X] 
是 任何 学 习 算法 应 该 推导 出 的 一 个 常数 函数 ， 所 谓 的 二 分 类 学 习 问 题 就 变 得 微 不 足 
道 了 。 这 是 不 现实 的 ， 因 为 这 要 求 已 知 目标 类 的 密度 。 但 是 ， 这 一 观察 经 验 给 出 了 
进行 下 一 步 工作 的 线索 。 即 对 目标 数据 运用 任意 的 密度 估计 技术 ， 用 此 结果 密度 函 
数 来 模拟 人 工 数 据 类 。Pr[X14] 5 Pr[T|X] 越 匹配 ,产生 二 分 类 概率 估计 的 任务 
就 变 得 越 容易 。 l 

在 实际 应 用 中 ， 假 定 有 很 多 可 用 的 有 效 的 类 概率 估计 方法 和 密度 估计 技术 的 相对 
缺乏 ， 使 得 以 下 方法 变 得 很 有 意义 。 首 先 在 目标 数据 上 应 用 一 个 简单 的 密度 估计 技术 
以 获得 Pr[X |4] ， 然 后 将 最 先进 技术 的 类 概率 估计 方法 用 于 二 分 类 问题 ， 其 中 数据 是 
结合 了 人 工 数据 和 目标 类 数据 的 数据 集 。 





Pr[X|T] = [X|A] 
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7.6 多 分 类 问题 转换 成 二 分 类 问题 


回顾 第 6 章 的 部 分 学 习 算 法 ， 如 标准 的 支持 向 量 机 ， 只 能 处 理 二 分 类 问题 。 在 大 多 数 
情况 下 ， 复 杂 多 类 问题 的 变 体 已 开发 出 来 ， 但是， 这些 变 体 方法 可 能 速度 很 慢 或 者 很 难 实 
现 。 作 为 选择 的 男 一 种 方案 是 ， 将 多 分 类 问题 转换 成 多 个 二 分 类 问题 。 将 数据 集 分 解 为 多 
个 二 分 类 问题 的 数据 子 集 ， 在 每 一 个 子 集 上 运行 学 习 算法 ， 输 出 为 各 个 分 类 器 结果 的 组 
合 。 多 种 流行 的 技术 都 可 以 实现 这 种 想法 。 本 章 首 先 讨论 一 种 非常 简单 且 在 讨论 如 何 使 用 
线性 回归 进行 分 类 时 接触 过 的 方法 ; 然后 继续 讨论 成 对 分 类 法 以 及 更 多 其 他 前 沿 技术 ， 如 
误差 校正 输出 编码 和 集成 谋 套 二 分 法 ， 即 使 在 学 习 方法 可 以 直接 处 理 多 类 问题 时 这 些 方 法 
常常 也 可 以 有 效 地 使 用 。 


7.6.1 简单 方法 


在 第 4 章 提 到 线性 分 类 的 开始 部 分 ， 我 们 讨论 了 如 何 转换 一 个 多 类 标 数据 集 ， 以 便 多 
响应 线性 回归 为 每 个 类 执行 二 分 类 回归 。 本 质 上 ， 这 个 方法 是 通过 将 每 个 类 和 其 他 所 有 类 
区 分 开 来 生成 多 个 二 分 类 数据 集 。 该 技术 通常 称 为 一 对 多 (one-vs.-rest 或 者 one - vs.-all) 。 
对 于 每 个 类 ， 数 据 集 的 生成 是 通过 复制 原始 数据 的 每 个 实例 来 完成 的 ， 但 是 类 值 修 改 了 。 
如 果实 例 属于 与 对 应 数据 集 相 关联 的 类 ， 则 标记 为 yes， 否 则 标记 为 no。 然 后 为 这 些 二 元 
数据 集 构 建 分 类 器 ， 这 些 分 类 器 用 它们 的 预测 结果 输出 一 个 置信 度数 值 ， 璧 如 标记 为 yes 
类 的 估计 概率 。 在 分 类 时 ， 将 测试 实例 传送 到 每 个 二 分 类 器 ， 最 后 的 结果 类 是 预测 yes 置 
信 度 最 高 的 分 类 器 所 对 应 的 那个 类 。 

当然 ， 这 些 方法 对 分 类 器 所 产生 的 置信 度数 值 很 敏感 。 如 果 有 些 分 类 器 的 预测 结果 有 
不 实 的 夸张 之 处 ， 则 整体 的 结果 也 会 受到 影响 。 这 就 是 在 使 用 学 习 算 法 时 仔细 调整 参数 设 
置 显得 十 分 重要 的 原因 。 例 如 ， 在 用 于 分 类 的 标准 支持 向 量 机 中 ， 通常 需 要 调整 参数 C， 
它 提供 每 一 个 支持 向 量 影响 范围 的 上 界 同时 控制 训练 数据 的 拟 合 程度 以 及 内 核 参 数 的 值 ， 
如 多 项 式 核 中 的 指数 。 这 些 可 以 通过 内 部 的 交叉 验证 实现 。 经 验 发 现 关 于 以 上 问题 的 一 对 
多 方法 非常 有 优势 ， 至 少 对 于 基于 核 的 分 类 器 ， 只 要 合理 地 设置 参数 此 方法 十 分 有 优势 。 
注意 ， 对 于 单个 二 分 类 模型 来 说 ， 应 用 校准 其 置信 和 度 分 数 的 技术 也 是 很 有 用 的 ， 这 将 在 下 
一 节 讨 论 。 

另 一 种 用 于 多 类 问题 的 简单 而 通用 的 方法 是 成 对 分 类 ( pairwise classification) 。 这 是 
为 成 对 的 类 建立 的 分 类 器 ， 并 且 只 使 用 来 自 这 两 类 的 实例 。 对 于 一 个 未 知 的 测试 用 例 ， 其 
输出 是 支持 率 最 高 的 那个 类 。 就 分 类 误差 而 言 ， 此 方案 通常 得 到 的 结果 是 精确 的 结果 。 通 
过 运用 称 为 成 对 耦合 (pairwise coupling) 的 方法 ，( 这 个 方案 也 可 用 于 生成 概率 估计 ) ， 从 
不 同 分 类 器 之 间 修 正 个 体 〈 单 个 分 类 器 ) 的 概率 估计 。 

如 果 有 上 下 个 类 ， 成 对 分 类 法 总 共 建 立 4( 丰 -1)7Z2 个 分 类 器 。 虽 然 这 听 起 来 有 不 必要 的 
密集 计算 ， 但 其 实 不 然 。 实 际 上 ， 如 果 所 有 的 类 是 均匀 填充 的 ， 成 对 分 类 器 至 少 和 任何 一 
个 多 分 类 方法 有 相同 的 训练 时 间 。 原 因 是 每 一 个 成 对 学 习 问 题 考虑 的 只 是 涉及 有 关 这 两 个 
类 的 实例 。 如 果 n 个 实例 被 均匀 分 为 个 类 ， 这 相当 于 每 个 问题 2n/k 个 实例 。 假 设 学 习 
算法 处 理 一 个 有 个 实例 的 二 分 类 问题 所 花费 的 时 间 与 n 秒 成 比例 。 然 而 成 对 分 类 法 的 运 
FTN Tal A ACK -1)/2 x2n/Ek 秒 成 比例 ， 即 为 (k-1)n。 换 名 话说， 这 个 方法 的 消耗 时 间 与 
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AAA BAEK. URES Rk ES et a], dni. n 成 比例 ， 则 成 对 分 类 法 的 
优势 就 会 更 为 明显 。 


7.6.2 误差 校正 输出 编码 


以 上 讨论 的 简单 方法 常常 非常 有 效 。 成 对 分 类 法 是 一 种 尤其 有 用 的 技术 。 即 使 在 一 些 
学 习 算 法 (如 决策 树 学 习 器 ) 可 以 直接 处 理 多 分 类 问题 时 ， 成 对 分 类 法 也 可 以 提高 其 分 类 
精度 。 这 也 许 是 因为 成 对 分 类 法 实际 上 生成 一 个 分 类 器 的 集群 。 集 成 学 习 是 获得 精确 分 类 
器 的 著名 策略 ， 本 书 将 在 第 8 章 讨 论 多 种 集成 学 习 方 案 。 其 实 ， 通 过 把 一 个 多 分 类 问题 分 
解 为 多 个 二 分 类 子 问题 ， 除 了 成 对 分 类 法 之 外 ， 还 有 其 他 多 种 方法 可 以 用 于 生成 集成 分 类 
器 。 接 下 来 讨论 一 种 基于 误差 校正 输出 编码 的 方法 。 

多 分 类 问题 分 解 成 为 的 二 分 类 问题 可 以 视 为 其 对 应 的 “输出 编码 ”。 回 顾 简单 的 一 对 
多 方法 来 理解 此 编码 。 考 察 一 个 有 4 个 类 a. b. c, d 的 多 类 问题 。 此 转换 可 以 可 视 化 为 
表 7-2a 所 示 的 那样 ， 此 处 yes 和 no 分 别 映射 为 1 和 0。 每 一 个 原始 的 类 值 被 转换 为 一 个 
4 位 的 编码 ，1 位 表示 一 个 类 ，4 个 分 类 器 独立 地 预测 每 1 位 (bit) 。 用 这 些 编码 字 解 释 分 
类 过 程 ， 当 错误 的 二 进 制 编码 获得 了 最 高 的 置信 和 度 时 ,分 类 错误 就 会 出 现 。 


表 7-2 将 一 个 多 分 类 问题 转化 为 二 分 类 问题 






类 向 量 

1111111 
b 0000111 
c 0011001 
0101010 











a 1000 
b 0100 
c 0010 





注 : a) 标准 方法 ，b) 误差 纠正 编码 。 


然而 ， 不 必须 要 用 特定 的 编码 显示 。 确 实 ， 也 没有 理由 让 每 个 类 都 必须 用 4 位 来 表 
示 。 参 看 表 7-2b 的 编码 ， 每 个 类 就 是 用 7 位 来 表示 的 。 当 应 用 到 具体 数据 集 时 ， 就 需要 
建立 7 个 分 类 器 而 不 是 4 个 。 考 察 对 一 个 特定 实例 的 分 类 ， 看 看 将 会 得 到 什么 结果 。 假 设 
它 属于 类 a， 且 每 一 个 分 类 器 的 预测 依次 是 1011111。 很 显然 ， 对 比 表 7-2b 中 的 编码 ， 第 
二 个 分 类 器 出 现 了 错误 : 它 预测 为 0 而 不 是 1， 即 用 no 替代 了 yes. 

对 比 预测 位 与 每 个 类 的 对 应 编码 ， 与 其 他 类 相 比 ， 这 个 实例 最 接近 类 a。 这 差异 可 以 
通过 将 预测 编码 转换 为 表 7-2b 中 编码 所 需 改变 的 字符 总 数 ， 即 汉 明 距离 (hamming dis- 
tance) ， 或 者 称 为 字符 串 之 间 的 差异 ， 在 本 例 中 ， 预 测 值 与 类 a、5b5、c、d 的 汉 明 距离 依次 
是 1、3、3、5。 由 此 可 以 放心 地 总 结 : 第 二 个 分 类 器 出 现 了 错误 但 是 也 正确 地 将 此 实例 划 
归 为 类 a。 

同样 的 误差 校正 对 于 表 7-2a 所 示 的 编码 是 不 适用 的 ， 因 为 不 仅 此 例 的 4 位 字符 编码 ， 
而 且 任 何其 他 的 预测 4 位 字符 编码 至 少 两 个 有 相同 的 〈 汉 明 ) 距离 。 因 此 ， 这 种 输出 编码 
不 是 “误差 校正 ”。 

什么 决定 一 个 编码 是 否 是 误差 校正 编码 呢 ? 考 察 代表 不 同类 的 编码 字符 之 间 的 汉 明 距 
离 。 可 能 被 校正 的 错误 的 数量 取决 于 任意 一 对 编码 字符 之 间 的 最 小 距离 d。 此 编码 可 以 确保 
更 正 (d -1) 人 /2 个 1 位 错误 ， 因 为 如 果 正 确 编码 字 的 位 数 翻 倍 ， 它 (d 最 小 距离 所 对 应 的 编 
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码 ) 仍然 是 最 接近 正确 编码 也 会 因此 被 正确 识别 。 在 表 7-2a 中 ， 每 对 编码 之 间 的 汉 明 距离 
是 2。 因 此 ， 最 小 距离 也 是 2， 可 以 更 正 的 错误 不 超过 0。 然 而 ， 在 表 7-2b 中 编码 的 最 小 的 
距离 是 4( 实 际 上 ， 每 对 编码 之 间 的 距离 都 为 4) 。 这 就 意味 着 这 可 以 确保 更 正 1 位 错误 。 

已 经 确定 了 一 个 好 的 误差 校正 编码 的 特征 是 : 汉 明 距离 编码 必须 很 好 地 被 分 隔 。 因 为 
包括 编码 列表 的 每 一 行 ， 所 以 这 个 特征 也 称 为 行 分 隔 (row separation)。 好 的 误差 校正 编 
码 的 第 二 个 要 求 就 是 此 编码 应 当 满 足 列 分 隔 (column separation) 。 每 两 列 之 间 的 汉 明 距离 
必须 大 ， 每 列 和 其 他 列 的 补 码 之 间 的 距离 也 必须 大 。 表 7-2b 所 示 的 7 列 (以 及 其 补 码 ) 
被 分 开 至 少 1 位 。 

列 分 隔 是 必要 的 ， 因 为 如 果 两 列 是 相同 的 (或 者 某 列 是 其 他 列 的 补 码 )， 则 相应 的 分 
类 器 将 会 犯 同 样 的 错误 。 如 果 错 误 是 相关 联 的 ， 换 句 话 说 编码 的 很 多 位 同时 不 正确 ， 那 么 
误差 校正 就 会 被 削弱 。 两 列 之 间 的 距离 越 大 ， 错 误 就 有 可 能 被 更 正 。 

少 于 4 个 类 就 不 能 构建 有 效 的 误差 校正 ， 因 为 有 效 的 行 分 隔 和 列 分 隔 条 件 不 能 同时 满 
足 。 例 如 ， 假 设 有 3 个 类 ， 则 只 会 有 最 多 8 列 (2°), d 4 列 是 其 他 4 列 的 补 码 。 此 外 ， 
都 为 0 或 者 为 1 的 列 提供 的 信息 并 无 差别 。 这 样 就 只 剩 下 3 列 可 用 ， 所 生成 的 编码 也 根本 
不 是 误差 校正 编码 〈 实 际 上 ， 这 是 标准 的 “一 对 多 ”编码 ) 。 

如 果 只 有 少数 几 类 ， 一 个 详尽 的 误差 校正 编码 如 表 7-2b 所 示 ， 也 是 可 以 构建 的 。 对 
于 类 的 详尽 编码 ， 除 去 补 码 以 及 全 为 0 或 者 全 为 1 的 列 外 ， 需 要 包括 所 有 可 能 的 左 位 字 
符 串 。 每 一 个 编码 包含 2 … -1 位。 编码 的 构成 如 下 : 第 一 类 的 编码 字 全 为 1， 第 二 类 为 
2 ^4 0 紧 随 其 后 的 是 2 一 -1 个 1, 第 三 类 为 2 ”个 0 接着 2 个 1 接着 2' 个 0 再 接着 
2 -1 个 1， 以 此 类 推 。 第 i 个 类 编码 字 是 由 2 个 0 和 1 交替 组 成 的 ， 最 后 一 轮 少 1 位 。 

对 于 更 多 的 类 来 说 ， 这 种 详尽 的 编码 是 不 现实 的 ， 因 为 列 的 数量 是 呈 指 数 增长 的 ， 因 
此 需要 建立 过 多 的 分 类 器 。 在 这 种 情况 下 ， 就 需要 使 用 更 为 复杂 的 方法 ， 这 个 方法 需 能 够 
用 较 少 的 列 建立 性 能 很 好 的 误差 校正 编码 。 

误差 校正 输出 编码 不 适用 于 局 部 学 习 算 法 ， 如 基于 实例 的 学 习 ， 它 们 通过 考察 一 个 实 
例 近 邻 训 练 实例 所 属 类 来 预测 该 实例 属于 哪个 类 。 在 最 近邻 分 类 器 情况 下 ， 所 有 的 输出 都 
是 使 用 相同 的 训练 实例 预测 得 出 的 。 这 个 问题 可 以 通过 使 用 不 同 的 属性 子 集 来 预测 每 一 个 
输出 位 来 规避 ， 从 而 解除 预测 值 之 间 的 关联 。 


7.6.3 BMRB 


误差 校正 输出 编码 通常 可 以 为 多 分 类 产生 精确 的 分 类 器 。 然 而 ， 基 本 算法 产生 的 分 
类 ， 通 常 也 需要 产生 类 概率 估计 ， 例 如 ， 在 5.7 节 中 讨论 的 使 用 最 低 预期 代价 的 方法 执行 
对 代价 敏感 的 分 类 。 幸 运 的 是 ， 存 在 一 种 用 于 分 解 多 分 类 问题 为 多 个 二 分 类 问题 的 方法 ， 
它 提 供 一 种 自然 的 方法 计算 类 概率 估计 ， 只 要 使 用 的 二 分 类 模型 能 够 为 相应 的 二 分 类 子 任 
务 计算 概率 。 

其 思想 是 将 原始 的 多 分 类 问题 的 类 全 集 递 归 地 分 割 为 更 小 的 子 集 ， 同 时 将 实例 数据 全 
集 分 割 为 与 类 子 集 相对 应 的 数据 子 集 。 这 会 产生 一 棵 关于 类 的 二 又 树 。 考 察 前 面 讨论 过 的 
假设 的 四 分 类 问题 。 根 结 点 是 类 全 集 la, 56,，c，d|} ,将 分 割 为 互 不 相交 的 两 个 子 集 
(a, BEAN 1c，d| ， 与 此 同时 这 两 个 子 集 对 应 的 实例 也 分 割 成 两 个 子 集 。 这 两 个 子 集 形成 
了 此 二 又 树 的 两 个 子 结 点 。 这 些 子 集 进一步 被 分 裂 为 一 元 素 集 ， 结 点 la, b] 产生 子 结 点 
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ja} 和 15], AR de, dl 产生 子 结 点 le] 和 1d| 。 一 但 得 到 一 元 素 子 集 ， 分 裂 过 程 
就 截止。 

由 此 产生 的 二 叉 树 分 类 称 为 嵌 套 二 分 法 〔 nested dichotomy) ， 因 为 每 一 个 内 部 结 点 和 
其 两 个 后 继 结 点 就 定义 了 一 个 二 分 法 ， 如 在 根 结 点 区 分 类 da, b] 和 类 fe, dl, E24 
法 在 一 个 层次 结构 里 是 嵌 套 的 。 可 以 将 嵌 套 二 分 法 视 os 巾 套 二 分 法 的 编码 甜 阵 形式 





为 一 种 特殊 类 型 的 稀 玻 输 出 编码 。 表 7-3 展示 了 刚才 ”类 xum ——— 
讨论 示例 的 输出 编码 矩阵 。 此 树 结构 的 每 一 内 部 结 点 a 00X 
有 一 个 二 分 法 。 因 此 ， 假 设 示例 中 包含 3 个 内 部 结 b 1X0 
点 ， 编 码 矩 阵 中 就 有 3 列 。 与 之 前 考虑 的 类 向 量 相 比 c 01X 
d 1X1 


较 ， 此 矩阵 包含 的 元 素 标记 为 蕊 表示 来 自 相 关 二 分 类 
学 习 问 题 的 相应 类 的 实例 仅仅 是 被 忽略 了 。 

这 类 输出 编码 的 优势 是 什么 ? 因为 使 用 的 是 层次 分 解 以 及 得 到 结果 是 互 不 相交 的 子 
集 ， 所 以 有 一 种 简单 的 方法 为 原始 的 多 类 集中 的 每 个 元 素 计 算 类 概率 估计 ， 此 层次 结构 中 
每 个 二 分 法 假设 为 二 分 类 估计 。 原 因 是 概率 论 中 的 链 式 法 则 ， 这 在 6.7 节 讨 论 贝 叶 斯 网 络 
时 已 经 接触 过 。 

假设 需要 计算 给 定 实例 x 属于 类 a 的 概率 ， 即 为 条 件 概率 Pr[a |*] 。 在 前 面 的 例子 中 
这 个 类 对 应 于 类 层次 结构 中 4 个 叶子 结 点 之 一 。 首 先 ， 学 习 一 个 二 分 类 模型 ， 为 处 在 内 部 
结 点 的 3 个 二 分 类 数据 集 产生 类 概率 估计 。 然 后 ， 从 根 结 点 的 二 分 类 模型 开始 ， 条 件 概率 
Pr[ ja, b] |x] 的 估计 值 就 可 以 得 到 了 ， 此 条 件 概率 表示 x 属于 a RAR. Sb, Æ 
可 以 得 到 Pr[ la] |x, ja, 6} ] 的 估计 值 ， 这 个 概率 表示 在 已 知 x 要 么 属于 a 要么 属于 6 
的 情况 下 ,x 属于 a 的 概率 ， 用 此 模型 鉴别 一 元 集 la] 和 {6}。 现 在 ,根据 链 式 法 则 ， 
Pr[ la] |x]=Pr[ la, b}, x] xPr[1a, b} |x]。 因 此 ,计算 原始 多 类 问题 中 任意 单个 类 
的 概率 ， 即 分 类 树 的 任意 叶子 结 点 的 概率 ， 仅 仅 需要 将 从 根 结 点 到 这 个 叶子 结 点 之 间 所 有 
内 部 结 点 的 概率 估计 乘 起 来 即 可 ， 即 包含 目标 类 的 所 有 类 子 集 的 概率 估计 的 乘积 。 

假设 在 内 部 结 点 的 单个 二 分 类 估计 产生 的 是 准确 的 概率 估计 ， 那 么 就 有 理由 相信 使 用 
链 式 法 则 得 到 的 类 估计 通常 都 是 准确 的 。 然 而 ， 很 显然 估计 误差 将 会 累计 ， 这 会 为 底层 结 
构造 成 麻烦 。 一 个 更 基本 的 问题 是 ， 在 以 前 的 例子 中 ， 对 某 个 特定 的 类 层次 分 解 时 ， 我 们 
是 任意 做 决定 的 。 或 许 存 在 一 些 与 领域 有 关 的 背景 知识 ， 在 这 种 情况 下 ， 因 为 某 些 类 是 已 
知 相关 的 ， 所 以 某 一 特殊 的 层次 结构 可 能 更 合适 这 些 类 ， 但 是 通常 这 些 情况 都 未 被 考虑 。 

可 以 做 什么 呢 ? 如 果 没 有 理由 优先 选择 任何 特殊 的 分 解 ， 或 许 所 有 的 可 能 都 要 考虑 ， 
以 此 产生 一 个 集成 庶 套 二 分 法 (ensemble of nested dichotomies) 。 不 幸 的 是 ， 对 于 任何 非 平 
凡 数 目的 类 来 说 ， 都 有 多 种 潜在 的 二 分 法 ， 做 一 个 全 面 而 无 遗漏 的 方案 是 不 可 行 的。 但 
是 ， 可 以 考虑 子 集 ， 采 取 对 所 有 可 能 的 树 结构 随机 抽样 ， 为 每 个 树 结 构 的 每 个 内 部 结 点 建 
立 二 分 类 模型 (假设 相同 二 分 类 问题 可 能 在 多 棵 树 中 出 现 ， 采 用 缓存 模型 )， 然 后 取 每 个 
类 所 有 概率 估计 值 的 平均 值 作为 最 终 的 类 概率 估计 值 。 

实证 实验 表明 通过 这 种 方案 可 以 得 到 准确 的 多 类 分 类 器 并 提高 预测 性 能 ， 即 使 在 使 用 
像 决 策 树 这 种 可 以 直接 处 理 多 分 类 问题 的 分 类 器 情况 下 仍然 可 以 提高 其 预测 性 能 。 与 标准 
的 误差 校正 输出 编码 相 比 较 ， 即 使 在 基础 的 学 习 器 不 能 模拟 复杂 的 决策 边界 时 仍然 能 有 效 
地 工作 。 原 因 是 ,一般 来 讲 ， 类 越 少 学 习 就 越 容易 ， 因 此 在 到 达 树 的 叶子 结 点 时 预测 结果 
就 会 越 准 确 。 这 也 可 以 解释 为 什么 之 前 描述 的 成 对 分 类 法 技术 对 于 简单 的 模型 ， 如 相当 于 
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超 平面 的 模型 ， 性 能 效果 特别 好 。 它 创建 了 最 简单 的 可 用 二 分 法 ! 拱 套 二 分 法 似乎 在 出 现 
于 成 对 分 类 法 中 的 学 习 问 题 的 简单 朴素 ( 毕竟， 最 低级 别 的 二 分 法 涉及 数 对 个 体 类 ) 和 体 
现在 标准 误差 输出 编码 中 的 元 余 复 杂 之 间 取 得 了 一 种 有 用 的 平衡 。 


7.7 校准 类 概率 


类 概率 估计 明显 比分 类 更 困难 。 给 定 一 个 生成 类 概率 的 方法 ， 其 分 类 误差 要 尽 可 能 地 
小 ， 同 时 预测 正确 类 的 概率 要 尽 可 能 大 。 然 而 ， 一 种 用 于 准确 分 类 的 方法 并 不 意味 着 是 生 
成 准确 概率 估计 的 方法 。 在 5.6 节 所 讨论 的 根据 二 次 损失 或 者 信息 损失 估计 得 出 正确 分 类 
效果 可 能 会 相当 差 。 但 是 ， 正 如 本 书 多 次 强调 的 那样 ， 对 于 一 个 给 定 的 实例 ， 更 为 重要 的 
是 获得 准确 的 条 件 类 概率 而 不 是 简单 地 将 这 个 实例 划分 给 某 个 类 。 基 于 最 小 期 望 代价 方法 
的 代价 敏感 预测 就 是 一 个 说 明 准 确 类 概率 估计 十 分 有 用 的 例子 。 

考察 只 有 两 个 类 的 数据 集 的 概率 估计 情况 。 如 果 预 测 在 正确 一 侧 的 概率 阔 值 为 常用 于 
分 类 的 阔 值 0. 5 ， 就 不 会 出 现 分 类 错误 。 但 是 ， 这 并 不 代表 概率 估计 本 身 是 准确 的 。 它 们 
可 能 系统 性 地 太 乐 观 : 所 有 实例 都 接近 0 或 1; 或 者 太 莫 观 ， 都 不 接近 这 两 个 极端 。 这 种 
类 型 的 偏差 将 增加 测量 值 的 二 次 损失 或 者 信息 损失 。 对 于 给 定 的 代价 矩阵 ， 当 试图 最 小 化 
这 个 分 类 的 预期 代价 时 就 会 出 现 问题 。 

图 7-7 展示 的 是 过 于 乐观 的 概率 估计 对 二 分 类 问题 的 影响 。x 轴 表 示 的 是 4.2 节 中 多 
项 朴素 贝 叶 斯 模型 的 预测 概率 ， 它 代表 
有 1000 个 词 频率 属性 的 文本 分 类 问题 中 
两 类 中 的 某 一 类 的 预测 概率 。y 轴 表 示 目 
标 类 的 观测 相对 频率 。 预 测 概率 和 相对 
频率 是 通过 10 折 交 叉 验 证 得 到 的 。 为 估 
计 相 对 频率 ， 首 先 使 用 等 频 离散 化 将 预 
测 概率 离散 为 20 个 区 间 。 观 察 此 曲线 图 
发 现 ， 相 应 的 每 个 区 间 已 被 合并 ， 一 边 
是 预测 概率 ， 另 一 边 是 相应 的 0/1 值 ， » 
合并 值 表 示 为 20 个 点 。 0 0.2 0.4 0.6 0.8 1 

这 种 曲线 图 称 为 可 靠 性 图 ( reliabili- 观测 概率 
ty diagram) ， 表 示 了 估计 概率 的 可 靠 性 。 图 7-7 对 于 二 分 类 问题 过 于 乐观 的 概率 估计 
对 于 一 个 精确 校准 的 类 概率 估计 器 来 说 ， 测 量 曲线 将 会 与 对 角 线 相 吻 合 。 此 例 显 然 不 是 这 
种 情况 。 朴 素 贝 叶 斯 模型 的 估计 值 太 过 乐观 ， 以 至 于 生成 的 概率 值 太 靠近 0 和 1。 这 还 不 
是 唯一 的 问题 。 此 曲线 距 用 于 分 类 的 阔 值 0. 5 所 对 应 的 线 太 远 。 这 就 意味 着 ， 分 类 性 能 会 
被 模型 生成 的 较 差 的 概率 估计 影响 。 

实际 上 ， 寻 找 一 条 靠近 对 角 线 的 曲线 会 使 得 误差 校正 更 为 明确 。 系 统 性 的 错误 估计 应 
该 纠正 ， 这 可 以 通过 使 用 事后 校准 的 概率 估计 将 经 验 观 测 所 得 曲线 映射 为 对 角 线 来 实现 。 
一 种 粗糙 方法 是 直接 使 用 可 靠 性 图 中 数据 来 校正 ， 在 对 应 的 离散 区 间 将 预测 概率 映射 为 观 
测 相 对 频率 。 这 些 数据 可 以 通过 使 用 内 部 交叉 验证 或 者 一 个 旁 置 数据 集 获得 ， 以 便 真 正 的 
测试 数据 集 未 受 影响 。 

基于 离散 化 的 校准 速度 非常 快 ， 但 是 确定 合适 的 离散 化 区 间 并 不 容易 。 区 间 太 少 ， 映 





观测 到 的 相对 频率 
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射 太 粗糙 ; 区 间 太 多 ， 每 一 区 间 包 含 的 数据 就 不 足 用 于 可 靠 的 相对 频率 估计 。 然 而 ， 可 以 
设计 其 他 的 校准 方法 。 关 键 是 意识 到 为 二 分 类 问题 校准 概率 估计 是 一 个 函数 估计 问题 ， 它 
有 一 个 输入 〈 即 已 估计 的 概率 ) 和 一 个 输出 〈 即 已 校准 的 概率 ) 。 原 则 上 ， 可 以 使 用 复杂 
的 函数 来 估计 映射 ， 也 许 是 任意 多 项 式 。 然 而 ， 假 设 观测 到 的 关系 至 少 是 单调 递增 的 是 很 
有 意义 的 ， 在 这 种 情况 下 ， 就 需要 使 用 递增 函数 。 

假设 校准 函数 是 分 段 常数 且 是 单调 递增 的 ， 那 么 存在 一 种 最 小 化 观测 类 “概率 ” (在 
没有 应 用 分 箱 时 其 值 为 0 或 1) 和 校准 后 类 概率 之 间 平 方 误差 的 有 效 算法 。 估 计 一 个 单调 
递增 分 段 常 数 函 数 是 保 序 回归 (isotonic regression) 的 一 个 实例 ， 对 此 有 一 种 基于 pair- ad- 
jacent violators(PAV) 方法 的 快速 算法 。 数 据 由 估计 概率 和 0/1 值 组 成 。 假 设 数 据 已 根据 
估计 概率 排序 。 基 本 的 PAV 算法 反复 地 合并 成 对 的 相 邻 数据 点 ， 计 算 它 们 的 加 权 平 均值 ， 
其 初始 值 是 0X1 值 的 均值 ， 只 要 相 邻 数据 违反 了 单调 性 约束 ， 就 用 加 权 平 均值 代替 原来 的 
数据 点 。 这 个 过 程 将 会 一 直 重 复 直 到 所 有 违反 约束 条 件 的 情况 都 被 解决 。 其 结果 是 一 个 按 
阶段 单调 递增 的 函数 。 这 种 朴素 的 算法 消耗 的 时 间 是 数据 点 数量 的 平方 ， 但 是 存在 一 种 运 
行 在 线性 时 间 内 的 巧妙 变 体 。 

另 一 种 流行 的 校准 方法 同样 预先 假定 一 个 单调 关系 ， 在 估计 类 概率 的 对 数 优 势 和 目标 
类 概率 之 间 假 设 存在 一 个 线性 关系 。 此 时 Logistic 函数 是 合理 的 ，Logistic 回归 可 以 用 于 估 
计 这 个 校准 函数 。 需 要 说 明 的 是 ， 使 用 估计 类 概率 的 对 数 优势 而 不 是 未 处 理 的 原始 值 作 为 
Logistic 回归 的 输入 是 十 分 重要 的 。 

假设 此 处 Logistic 回归 只 有 两 个 参数 ， 那 么 使 用 一 个 比 PAV 方法 更 简单 的 模型 更 适合 
于 只 有 少量 数据 可 用 于 校准 的 情况 。 但 是 ， 对 于 大 量 的 数据 来 说 ， 基 于 PAV 的 校准 方法 
通常 更 可 取 。Logistic 回归 有 容易 用 于 多 分 类 问题 的 概率 校准 的 优势 ， 因 为 存在 处 理 多 分 
类 问题 版 本 的 Logistic 回归 。 在 保 序 回归 的 情况 下 ， 对 超过 两 类 的 问题 通常 使 用 一 对 多 方 
法 ， 但 作为 选择 ， 也 可 以 使 用 7. 6 节 讨 论 的 成 对 耦合 或 者 集成 能 套 二 分 类 。 

注意 ， 存 在 估计 值 和 真实 概率 值 之 间 的 关系 不 是 单调 的 情形 。 然 而 ， 不 要 使 用 更 复杂 
的 校准 方法 或 使 用 不 假设 单调 性 的 基于 离散 化 的 校准 ， 这 或 许 应 该 视 为 将 使 用 的 类 概率 估 
计 方 法 不 足以 应 付 待 处 理 问 题 的 一 种 指示 。 


7.8 补充 读物 


属性 选择 即 术语 特征 选择 (feature selection) 已 经 在 模式 识别 领域 中 探索 了 几 十 年 。 
例如 ， 反 向 删除 是 在 20 世纪 60 年 代 初 引入 的 (Marill 和 Green, 1963), Kittler(1978) 对 
用 于 模式 识别 的 属性 选择 算法 进行 了 考察 。 最 佳 优先 搜索 和 遗传 算法 是 标准 的 人 工 智能 技 
术 (Winston, 1992; Goldberg, 1989), 

添加 新 属性 会 使 决策 树 学 习 器 性 能 变 差 的 实验 结果 是 由 John 在 1997 年 报告 的 ， 他 对 
属性 选择 进行 了 适当 的 解释 。 找 到 能 独特 地 划分 实例 的 最 小 属性 集 的 思想 方法 是 由 
Almuallin 和 Dietterich( 1991, 1992) 提出 的 ， 并 在 1996 年 由 Liu 和 Setiono 进一步 发 展 。 
Kibler 和 Aha(1987) 以 及 Cardie(1993) 都 研究 了 用 决策 树 算法 来 为 最 近邻 学 习 确定 属性 ; 
Holmes 和 Nevill- Manning(1995) 使 用 1R 将 属性 排序 用 于 选择 。Kira 和 Rendell(1992) 使 
用 基于 实例 的 方法 来 选择 属性 ， 产 生 一 种 称 为 递归 消除 属性 (Recursive Elilination of Fea- 
ture, RELIEF) 的 方法 。Gilad- Bachrach 等 人 在 2004 年 展示 了 如 何 修 改 此 方法 来 更 好 处 理 
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宛 余 属性 。 基 于 关联 的 属性 选择 方法 是 由 Hall 在 2000 年 提出 的 。 

使 用 包装 的 方法 进行 属性 选择 要 归功 于 John 等 (1994) 以 及 Kohavi 和 John(1997 ) 。 
Vafaie 和 DeJong( 1992) 以 及 Cherkauer 和 Shavlik (1996) 将 遗传 算法 应 用 于 包装 结构 中 。 
选择 性 朴素 贝 叶 斯 学 习 方法 应 归功 于 Langley 和 Sage(1994)。Guyon 等 (2002) 展现 并 评 
估 了 递归 属性 消除 方法 与 支持 向 量 机 相 结 合 的 方案 。 竞 赛 搜 索 法 是 由 Moore 和 Lee ( 1994 
^F) 开发 的 。Giitlein (2009) 研究 了 如 何 使 用 简单 的 基于 排序 的 方法 加 速 多 属性 数据 
集 的 具体 方案 相关 的 选择 (scheme-specific selection) 。 

Dougherty 等 (1995) 简单 叙述 了 有 监督 和 无 监督 的 离散 化 ， 并 将 实验 结果 与 基于 信 
的 等 宽 装 箱 和 1 规则 CIR) 方法 进行 了 比较 。Frank 和 Witten( 1999) 描述 了 使 用 离散 排 
序 信 息 的 效果 。 用 于 朴素 贝 叶 斯 的 上 区 间 离 散 是 由 Yang 和 Webb(2001) EHK. SEF HA 
的 离散 化 方法 ， 包 括 MDL 的 停止 条 件 ， 是 由 Fayyad 和 Irani(1993) 开发 的 。 使 用 x? 检验 
的 由 下 向 上 的 统计 方法 应 归功 于 Kerber(1992) ，Liu 和 Setiono(1997) 介绍 了 由 此 方法 扩 
展 而 得 到 的 一 种 自动 判定 重要 性 水 准 的 方法 。Fulton 等 (1995) 探索 了 将 动态 规划 应 用 于 
离散 化 ， 并 得 到 一 个 不 纯 函数 的 二 次 时 间 边界 A, W) 和 一 个 基于 误差 离散 化 的 线性 
边界 。 用 来 说 明基 于 误差 离散 化 弱点 的 例子 是 根据 Kohavi 和 Sahami(1996) 改写 的 ， 是 他 
们 首先 清楚 地 发 现 了 这 个 现象 。 

主 成 分 分 析 法 是 一 种 标准 技术 ， 大 多 数 统 计 教 科 书 中 都 有 介绍 。Fradkin 和 Madigan 
(2003) 分 析 了 随机 投影 的 性 能 。 偏 最 小 二 乘 回 归 算 法 是 由 Hastie 等 提出 的 (2009), Wit- 
ten 等 (1999) 介绍 了 TF xIDF 度量 。 

使 用 C4. 5 过 滤 训 练 数据 的 实验 是 由 John (1995) 展示 的 。Brodley 和 Friedl(1996) Jf 
究 了 一 个 更 为 保守 的 方法 ， 使 用 多 个 学 习 算 法 生成 一 个 一 致 的 过 滤器 。Rousseeuw 和 Leroy 
(1987) 介绍 了 统计 回归 中 的 离 群 点 检测 ， 包 括 最 小 中 值 二 乘法 ; 它们 还 展示 了 图 7-6 的 
电话 数据 。Quinlan(1986) 发 现 ， 消 除 训 练 实例 属性 上 的 噪声 会 降低 分 类 器 对 相似 噪声 测 
试 实例 的 性 能 ， 特 别 是 噪声 较 大 时 。 

Barnett 和 Lewis( 1994) 解决 了 在 统计 数据 中 一 般 性 的 离 群 点 问题 ，Pearson(2005) W 
述 了 为 目标 数据 拟 合 分 布 的 统计 方法 。Schalkopf 4 (2000) 描述 了 支持 向 量 机 用 于 离 群 
点 检测 Abe 4 (2006) 使 用 人 工 数据 作为 第 二 个 类 。 将 结合 密度 估计 和 使 用 人 工 数据 的 
类 概率 估计 建议 为 无 监督 学 习 的 通用 方法 是 由 Hastie 等 (2009) 提出 的 ，Hempstalk 等 
(2008) 在 一 分 类 问题 的 背景 中 也 阐述 了 这 个 方法 。Hempstalk 和 Frank (2008) 讨论 了 一 
分 类 和 多 分 类 问题 的 公平 比较 ， 当 训练 时 有 多 个 类 存在 以 及 在 预测 时 需要 排除 一 个 全 新 
的 类 。 

Vitter( 1985) 研究 了 蓄 水 池 抽 样 法 ， 他 所 说 的 这 种 方法 我 们 称 为 算法 R。 它 的 计算 复 
杂 度 是 O(N), N 是 数据 流 中 的 实例 数 ， 因 为 必须 为 每 个 实例 生成 一 个 随机 数 ， 用 于 决定 
是 否 以 及 何 处 替换 样本 池 中 的 实例 。Vitter 提出 了 一 些 改进 算法 R 的 算法 ,通过 减少 生成 
样本 所 必需 的 随机 数 的 数量 来 实现 。 

Rifkin 和 Klautau(2004) 演示 了 只 要 设置 合适 的 参数 ， 一 对 多 方法 用 于 多 分 类 问题 可 
以 工作 得 很 好 。Friedman(1996) 阐述 了 成 对 分 类 技术 ，Fiirnkranz(2002) 更 深入 地 分 析 了 
这 种 方法 ，Hastie 和 Tibshirani (2003 ) 通过 使 用 成 对 耦合 将 其 扩展 应 用 于 估计 概率 。 
Fürnkranz(2003) 将 成 对 分 类 法 定义 为 集成 学 习 的 一 种 技术 。 在 Dietterich 和 Bakiri 的 论文 
之 后 ， 将 误差 校正 输出 编码 用 于 分 类 得 到 了 广泛 的 接受 ; Ricci 和 Aha( 1998) 演示 了 如 何 
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使 用 那些 编码 于 最 近邻 分 类 。Frank 和 Kramer( 2004) HERRERIA TERREI 
类 法 。Dong 等 (2005) 考虑 平衡 的 嵌 套 二 分 类 而 不 是 无 限制 的 随机 层次 结构 去 减少 训练 


时 间 。 


校准 类 概率 估计 方法 的 重要 性 现在 已 被 广泛 认可 。Zadrozny 和 Elkan(2002) 将 PAV 
方法 和 Logistic 回归 用 于 校准 ， 同 时 研究 了 如 何 处 理 多 分 类 问题 。Niculescu- Mizil 和 Carua- 
na(2005) 结合 一 大 批 基础 的 类 估计 器 ， 对 比 了 Logistic 回归 的 变 体 和 基于 PAV 的 方法 ， 
发 现 后 者 适合 于 足够 大 量 的 校准 集 。 他 们 还 发 现 ， 多 层 感 知 机 和 装 袋 决 策 树 产生 了 精确 校 
准 的 概率 且 不 需要 额外 的 校准 步骤 。Stout(2008) 基于 最 小 化 平方 误差 提出 了 一 种 用 于 保 
序 回 归 的 线性 时 间 算 法 。 


7.9 Weka 实现 


属性 选择 〈 见 11.8 节 、 表 11-9 和 表 11-10) : 


CfsSubsetEval( 基于 相关 性 的 属性 子 集 估 计 器 ) 。 
ConsistencySubsetEval ( 对 给 定 属性 集 度量 类 一 致 性 ) 。 
ClassifierSubsetEval( 使 用 分 类 器 估计 属性 子 集 ) 。 

SVMAttributeE val ( 根据 支 持 向 量 机 所 学 习 的 系数 大 小 对 属性 排序 ) 。 
ReliefF( 基于 实例 的 属性 排序 法 ) 。 

WrapperSubsetEval( 使 用 分 类 器 加 上 交叉 验证 ) 。 

GreedyStepwise ( 正 向 选择 和 反 向 删除 搜索 )。 

LinearForwardSelection ( 在 搜索 的 每 一 步 带 属性 选择 滑动 窗口 的 正 向 选择 ) 。 
BestFirst( 使 用 回 漳 贪 心 仆 山 法 的 搜索 方法 )。 

RaceSearch ( 使 用 竞赛 搜索 方法 ) 。 

Ranker ( 根据 其 评估 值 排 序 单个 属性 ) 。 


学 习 决 策 表 ，DecisionTable( JL 11. 4 节 和 表 11-5). 
离散 化 (UL11.3 节 ): 


Discretize， 在 表 11-1 中 (为 无 监督 离散 化 提供 多 种 选择 ) 。 
PKIDiscretize， 在 表 11-1 中 (成 比例 的 大 区 间 离 散 化 ) 。 
Discretize ， 在 表 11-3 中 (为 有 监督 离散 化 提供 多 种 选择 ) 。 


其 他 数据 转换 操作 ( 见 11.3 节 ) : 


PrincipalComponents 和 RandomProjection ， 在 表 11-1 中 ( 主 成 分 分 析 和 随机 投影 ) 。 
表 11-1 中 的 操作 包括 算术 运算 ; 时 间 序 列 运 算 ; 模糊 处 理 ; 生成 集群 成 员 值 ; 添 
加 噪声 ; 在 数值 型 、 二 元 、 名 目 属性 之 间 的 多 种 转换 ; 以 及 多 种 数据 清理 操作 。 
X 11-2 中 的 操作 包括 重 采 样 和 蓄 水 池 采 样 。 

表 11-3 中 的 操作 包括 偏 最 小 二 乘 转 换 。 

MultiClassClassifier( 见 表 11-6; 包含 多 种 使 用 二 分 类 分 类 器 处 理 多 分 类 问题 的 方 
法 ， 包 含 误差 校正 输出 编码 ) 。 

END( 见 表 11-6; 集成 能 套 二 分 类 法 ) 。 
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已 经 学 习 了 如 何 调整 输入 和 校准 输出 ， 现 在 转向 将 数据 中 学 到 的 不 同 模型 相 结合 的 
技术 。 将 会 有 一 些 惊喜 等 着 你 。 将 训练 数据 分 成 多 个 不 同 的 训练 集 ， 在 每 一 个 训练 数据 
集 上 学 习 一 种 模型 ， 然 后 将 各 个 模型 组 合 产生 一 个 学 习 模 型 集群 ， 这 样 的 方法 通常 更 有 
优势 。 的 确 ， 做 到 这 些 的 技术 可 以 非常 强大 。 璧 如 ， 它 可 以 将 一 种 相对 弱 的 学 习 方 案 
转变 成 一 个 极 强 的 学 习 方案 (本 书 稍 后 将 会 解释 其 准确 的 意义 )。 应 用 集成 学 习 的 一 
个 缺点 是 缺乏 可 解释 性 ， 但是， 在 这 些 方法 所 学 习 的 内 容 基 础 上 ,仍然 有 办 法 获得 其 
可 理解 的 结构 化 描述 。 最 后 ， 如 果 存 在 多 种 学 习 方 案 可 用 ,不 是 选择 针对 数据 集 性 能 
最 好 的 那个 方案 〈 使 用 交叉 验证 检验 ) ， 而 是 每 种 方案 都 用 ， 然 后 将 其 所 得 的 结果 组 
合 起 来 。 

许多 这 样 的 结果 都 相当 有 悖 常理 ， 至 少 乍 一 眼看 是 这 样 的 。 如 何 让 多 种 不 同 的 模型 一 
起 使 用 变 成 一 个 好 方法 ? 如 何 让 其 比 选择 性 能 最 好 的 某 一 方案 表现 更 好 ? 当然 ， 所 有 的 这 
些 都 与 提倡 简单 的 奥 卡 姆 剃刀 原理 背道而驰 。 如 何 能 够 通过 组 合 性 能 一 般 的 模型 来 获得 一 
流 的 性 能 呢 ， 就 像 是 这 些 技术 之 一 所 做 到 的 那样 ? 但 是 考虑 到 群体 的 力量 ， 通 常 能 比 单个 
专家 提出 更 明智 的 决定 。 回 顾 伊 壁 鸠 鲁 (Epicurus) 的 观点 ， 在 面 对 多 种 可 选择 解释 时 ， 
应 当 保留 所 有 的 解释 。 设 想 有 一 组 专家 ， 每 位 专家 尽管 不 能 精通 所 有 领域 ， 但 在 各 自 有 限 
的 领域 里 都 很 有 建树 。 为 帮助 理解 这 些 方法 如 何 工作 ， 研 究 人 员 揭 示 了 其 各 种 联系 和 连 
接 ， 并 已 得 到 了 更 大 的 改进 。 


8.1 组 合 多 种 模型 


明智 的 人 在 做 出 某 个 关键 决策 时 ， 通 常 要 考虑 多 个 专家 的 意见 而 不 是 只 依赖 于 自己 的 
判断 或 依赖 于 某 个 唯一 被 信任 的 顾问 。 例 如 ， 在 选择 一 个 重要 的 新 政策 方向 之 前 ， 一 个 好 
的 独裁 者 会 广泛 地 征询 意见 ， 盲 目地 听从 一 个 专家 的 意见 是 不 明智 的 。 在 民主 的 条 件 下 ， 
对 不 同 的 观点 进行 讨论 也 许可 以 达成 一 致意 见 ， 如 果 不 能 还 可 以 进行 投票 。 不 管 采用 哪 种 
方法 ,不 同 专家 的 意见 被 组 合 在 一 起 。 

在 数据 挖掘 中 ， 由 机 器 学 习 产 生 的 一 个 模型 可 以 被 看 做 是 一 个 专家 。 用 专家 这 个 词 也 
许 过 于 强烈 了 ! 这 取决 于 训练 数据 的 数量 和 质量 以 及 学 习 算法 是 否 适 合 于 手头 的 问题 ， 这 
个 专家 也 许 很 令 人 遗憾、 很 无 知 ， 但 不 管 怎 样 ， 我 们 还 是 先 用 这 个 术语 。 很 明显 ， 能 使 所 
做 出 的 决策 更 为 可 靠 的 方法 就 是 将 不 同 的 输出 模型 组 合 起 来 。 有 些 机 器 学 习 技 术 是 通过 学 
习 集 成 模型 将 它们 组 合 应 用 来 实现 ， 其 中 最 主要 的 方法 有 装 袋 (bagging), #4 ( boos- 
ting) 和 堆栈 (stacking) 。 在 大 多 数 情形 下 ， 与 单个 模型 相 比 较 ， 它 们 都 能 使 预测 性 能 有 
所 提高 ， 并 且 是 可 用 于 数值 预测 和 分 类 预测 的 通用 技术 。 

装 袋 、 提 升 和 堆栈 是 最 近 一 二 十 年 发 展 起 来 的 ， 它 们 的 性 能 常常 出 人 意料 地 好 。 机 器 
学 习 研 究 人 员 曾 努力 分 析 其 中 的 原因 。 在 这 个 努力 过 程 中 ， 又 有 新 方法 出 现 ， 有 时 能 带 来 
更 好 的 结果 。 例 如 ， 人 类 的 委员 会 (制度 ) 很 少 能 从 噪声 干扰 中 获 益 ， 与 此 相反 ， 添 加 随 





机 的 分 类 器 变 体 重新 组 合 后 的 装 袋 法 却 能 获得 性 能 的 提高 。 更 进一步 的 研究 分 析 发 现 提升 
法 也 许 是 这 三 者 中 最 好 的 方法 ， 它 与 统计 技术 的 全 加 模型 非常 相关 ， 对 这 一 点 的 认识 也 导 
致 了 改进 的 程序 。 

这 些 组 合 模型 都 有 难以 分 析 这 个 弊端 : 它们 可 以 由 许多 甚至 是 几 百 个 单个 模型 组 成 ， 
虽然 性 能 不 错 ， 但 这 些 决 策 的 改善 归功 于 哪些 因素 并 不 容易 了 解 。 近 几 年 ， 发 展 了 一 些 方 
法 将 委员 会 的 益处 和 易 理解 的 模型 融合 在 一 起 。 有 些 是 产生 标准 的 决策 树 模型 ， 另 一 些 是 
产生 能 提供 可 选 路 径 的 决策 树 新 变 体 。 


8.2 Fess 


组 合 不 同 模型 的 决策 意味 着 由 不 同 的 输出 结果 合并 产生 一 个 预测 结果 。 对 于 分 类 问 
题 ， 最 简单 的 方法 就 是 进行 投票 〈 也 许 是 带 有 权 值 的 投票 ) ; 对 于 数值 预测 问题 ， 就 是 计 
算 平 均值 (也 许 是 带 有 权 值 的 平均 值 ) 。 装 袋 法 和 提升 法 都 采纳 这 种 方式 ， 但 它们 用 不 同 
方法 得 到 各 自 的 模型 。 在 装 袋 法 中 ， 模 型 都 有 相同 的 权 值 ; 而 在 提升 法 中 ， 给 较 成 功 的 模 
型 加 权 是 用 于 提高 其 影响 力 ， 就 像 执 行 主管 对 于 不 同 专家 的 建议 依据 他 们 过 去 预测 的 准确 
性 给 予 不 同 的 权 值 一 样 。 

为 了 介绍 装 袋 法 ， 假 设 从 问题 领域 中 随机 选择 几 个 相同 大 小 的 训练 数据 集 。 想 象 使 用 
某 种 特定 的 机 器 学 习 技 术 来 为 每 个 数据 集 建立 决策 树 。 你 也 许 期 望 这 些 树 在 实际 中 是 一 样 
的 ， 对 于 每 个 新 的 实例 会 做 出 同样 的 预测 。 令 人 惊讶 的 是 ， 这 个 设想 是 相当 错误 的 ， 特 别 
是 当 训 练 数 据 集 相当 小 时 。 这 是 个 令 人 烦 扰 的 事实 ,在 整个 计划 上 投下 了 阴影 ! 原因 是 决 
策 树 归纳 法 (至少 , 第 4 章 中 所 描述 的 标准 的 从 上 而 下 的 方法 ) 是 一 个 不 稳定 的 过 程 : VII 
练 数据 的 稍 许 变化 容易 导致 在 某 个 结 点 处 选择 不 同 的 属性 ， 使 这 个 结 点 下 面 的 分 支 结构 出 
现 明显 的 差异 。 这 意味 着 对 于 某 些 测试 实例 ， 部 分 决策 树 能 产生 正确 的 预测 ， 部 分 却 
不 能 。 

回 到 前 面 的 专家 比喻 ， 将 每 个 专家 想象 为 单个 的 决策 树 。 我 们 可 以 通过 让 它们 对 每 个 
测试 实例 投票 来 组 合 这 些 树 。 如 果 一 个 类 收 到 了 比 其 他 类 更 多 的 投票 ， 它 就 被 当做 是 正确 
的 类 别 。 一 般 地 ， 投 票数 越 多 越 好 : 考虑 越 多 的 投票 ， 由 投票 所 决定 的 预测 就 越 可 靠 。 如 
果 有 新 的 训练 数据 被 发 现 ， 则 用 它们 创建 树 并 让 预测 结果 参与 投票 ， 决 策 结果 很 少 会 变 
差 。 特 别 是 ， 组 合 分 类 器 的 准确 率 很 少 比 由 单个 数据 集 建立 的 决策 树 的 准确 率 差 ( 然 而， 
并 不 能 确保 改善 ， 从 理论 上 可 以 看 到 组 合 决策 变 得 更 差 的 情形 也 有 可 能 存在 ) 。 


8.2.1 偏差 -方差 分 解 


组 合 多 种 假设 的 效果 可 以 用 一 种 称 为 偏差 -方差 分 解 (bias-variance decomposition ) 
的 理论 来 考察 。 假 设 我 们 有 无 数 个 相同 大 小 的 独立 训练 集 ， 用 它们 来 生成 无 数 个 分 类 
器 。 用 所 有 的 分 类 器 对 一 个 测试 实例 进行 处 理 ， 由 多 数 投票 来 决定 答案 。 在 这 个 理想 的 
情况 下 ， 还 是 会 出 现 错误 ， 因 为 没有 一 种 学 习 方案 是 完美 的 、 误 差 率 是 由 机 器 学 习 方 法 
与 手头 问题 的 适 配 程度 所 决定 的 ， 而 且 总 是 存在 噪声 数据 的 影响 ， 这 也 是 不 可 能 学 习 
到 的 。 

假设 预期 的 误差 率 是 用 组 合 分 类 器 在 无 数 个 独立 测试 实例 上 的 平均 误差 评估 出 来 的 。 
某 个 具体 学 习 算法 的 误差 率 称 为 学 习 算 法 对 于 这 个 学 习 问 题 的 偏差 (bias), ， 是 学 习 方 法 
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与 问题 适 配 程度 的 一 种 度量 (在 偏差 术语 中 包含 了 “噪声 ”成 分 ， 是 因为 在 实际 问题 中 
它 通常 是 未 知 的 ) 。 这 个 技术 定义 是 对 1.5 节 中 所 介绍 的 偏差 这 个 模糊 的 术语 进行 量化 的 
一 种 方法 ， 它 衡量 了 一 种 学 习 算法 的 “永久 性 ”误差 ， 这 个 误差 即使 考虑 无 数 个 训练 集 也 
是 无 法 消除 的 。 当 然 在 实际 运用 中 不 可 能 精确 计算 ， 只 能 大 致 估算 。 

在 实际 中 ， 学 习 模 型 的 第 二 个 误差 来 源 是 所 使 用 的 具体 的 训练 集 ， 它 是 有 限 的 ， 因 此 
不 能 完全 代表 真实 的 实例 集 。 这 个 误差 部 分 的 期 望 值 来 源 于 所 有 给 定 大 小 的 可 能 训练 集 以 
及 所 有 可 能 的 测试 集 ， 称 为 学 习 方 法 对 于 这 个 问题 的 方差 (variance) 。 一 个 分 类 器 的 总 期 
望 误差 是 由 偏差 和 方差 这 两 部 分 之 和 构成 的 ， 这 就 是 偏差 -方差 分 解 (bias- variance de- 
composition ) 。 

注意 此 处 忽略 了 具体 细节 。 偏 差 -方差 分 解 在 基于 平方 误差 的 数值 预测 内 容 部 分 已 经 
介绍 过 ， 并 有 一 种 被 广泛 接受 的 方法 。 然 而 ， 对 于 分 类 来 说 ， 情 况 并 不 清楚 ， 研 究 人 员 已 
经 提出 了 多 个 相互 矛盾 的 分 解 方法 。 不 管用 于 分 析 误差 的 具体 分 解 方法 ， 以 这 种 方式 组 合 
多 个 分 类 器 通常 能 够 通过 减少 方差 分 量 来 降低 期 望 误差 值 。 包 含 的 分 类 器 越 多 ， 方 差 减 少 
量 就 越 大 。 当 然 ， 在 将 这 种 投票 方案 用 于 实际 时 ， 困 难 出 现 了 : 通常 只 有 一 个 训练 集 ， 要 
获得 更 多 的 数据 要 么 不 可 能 ， 要 么 代价 太 大 。 

装 袋 法 试图 使 用 一 个 给 定 的 训练 集 模拟 上 述 过 程 来 缓解 学 习 方 法 的 不 稳定 性 。 删 除 部 
分 实例 并 复制 其 他 的 实例 来 改变 原始 训练 数据 ， 而 不 是 每 次 抽样 一 个 新 的 、 独 立 的 训练 数 
据 集 。 从 原始 数据 集中 随机 有 放 回 地 抽样 ， 产 生 一 个 新 的 相同 大 小 的 数据 集 ， 这 个 抽样 过 
程 不 可 避免 地 出 现 一 些 重复 实例 ， 删 除 另 一 些 实例 。 如 果 觉 得 这 个 想法 似曾相识 ， 那 是 因 
为 在 5. 4 节 描 述 自助 法 用 于 估计 一 个 学 习 方法 的 推广 误差 时 曾经 介绍 过 。 事 实 上 ， 术 语 装 
伐 代 表 的 是 自助 聚集 (bootstrap aggregating) 。 装 袋 法 将 学 习 方案 ,例如 决策 树 ， 应 用 于 每 
一 个 人 工 生 成 的 数据 集 上 ， 从 中 形成 分 类 器 并 对 预测 类 进行 投票 。 图 8-1 对 这 个 算法 进行 
了 概述 。 模型 生成 

装 袋 和 先前 所 述 理想 化 的 过 程 之 间 的 差别 在 于 训 令 n 为 训练 数据 的 实例 数量 
练 数据 集 形 成 的 方法 不 同 。 装 袋 只 是 通过 对 原始 数据 “| ”对 于 t 次 循环 中 的 每 一 次 
集 进 行 重新 抽样 来 代替 从 领域 中 获得 独立 的 数据 集 。 | Rao TAN 
重新 抽样 的 数据 集 当然 各 不 相同 ， 但 肯定 不 是 独立 的 ， aa 
因为 它们 都 是 基于 同一 个 数据 集 产 生 的 。 然 而 ,结果 分 类 




















是 装 袋 所 产生 的 组 合 模型 的 性 能 经 常 比 在 原始 训练 数 「 对 于 t 个 模型 中 的 每 一 个 ， ] 
: I 3 使 用 模型 对 实例 进行 分 类 预测 
据 集 上 产生 的 单个 模型 有 明显 的 改善 ， 而 且 没有 明显 ”| 二 加 使用 模型 对 实例 进行 分 类 预 
变 差 的 情形 出 现 。 
图 8-1 装 袋 算 法 


装 袋 法 也 可 用 于 进行 数值 预测 的 学 习 方 法 ， 例 如 

模型 树 。 差 别 只 是 对 各 个 预测 结果 (都 是 实数 ) 计算 平均 值 ， 而 不 是 对 结果 进行 投票 。 
差 -方差 分 解 也 适用 于 数值 预测 ， 分 解 对 于 新 数据 所 做 预测 的 均 方 误差 的 期 望 值 。 偏 差 定 
义 为 对 所 有 模型 进行 平均 时 的 期 望 均 方 误差 ， 这些 模 型 是 在 所 有 可 能 的 、 相 同 大 小 的 训练 
数据 集 上 所 建立 的 。 方 差 是 单个 模型 的 期 望 误差 ， 这 个 模型 是 在 某 个 具体 的 训练 数据 集 上 
所 建立 的 。 从 理论 上 可 以 看 出 ， 对 建立 在 多 个 独立 训练 集 上 的 模型 求 平 均值 总 是 可 以 减 小 
均 方 误差 的 期 望 值 (正如 我 们 先前 提 到 的 ， 这 种 模拟 结果 对 于 分 类 来 说 ,不 是 完全 真 
实 的 ) 。 





8.2.2 考虑 成 本 的 装 袋 


当 学 习 方 法 不 稳定 时 ， 即 输入 数据 的 微小 变化 能 导致 生成 差别 相当 大 的 分 类 器 ， 装 
袋 可 以 提供 最 大 的 帮助 。 实 际 上 ， 尽 可 能 地 使 学 习 方法 不 稳定 ， 增 加 集成 分 类 器 中 的 多 
样 性 ， 有 助 于 提高 分 类 器 性 能 。 例 如 ， 当 对 决策 树 使 用 装 袋 技术 时 ， 决 策 树 已 经 是 不 稳 
定 的 ， 如 果 不 对 树 进行 前 校 ， 经 常 可 以 获得 更 好 的 性 能 ， 而 这 会 使 决策 树 变 得 不 稳定 。 
男 一 种 改进 可 以 通过 改变 分 类 预测 组 合 的 方法 来 获得 。 装 袋 原 本 是 使 用 投票 法 ,但 如 果 
模型 可 以 输出 概率 估计 而 不 只 是 简单 的 分 类 ， 那 么 赁 直觉 将 这 些 概率 取 平 均值 来 蔡 代 投 
票 是 有 意义 的 。 这 样 做 不 仅 经 常 能 稍 许 改 善 分 类 的 性 能 ， 而 且 能 使 装 袋 的 分 类 器 产生 一 
个 概率 估计 ， 这 通常 会 比 单个 模型 所 产生 的 结果 更 加 精确 。 因 此 装 袋 的 实现 通常 采用 这 
种 方法 来 组 合 预测 。 

在 5.7 节 ， 我们 展示 了 怎样 通过 最 小 化 预测 的 期 望 成 本 使 分 类 器 对 成 本 敏感 。 准 确 
的 概率 估计 是 必要 的 ， 因 为 要 用 它们 来 获取 每 个 预测 的 期 望 成 本 。 装 袋 是 成 本 敏感 分 类 
的 最 佳 选择 ， 因 为 它 能 从 决策 树 和 其 他 一 些 功 能 强大 但 不 稳定 的 分 类 器 中 产生 非常 精确 
的 概率 估计。 但 缺点 是 应 用 了 装 袋 技术 的 分 类 器 很 难 分 析 。 

一 种 称 为 MetaCost 的 方法 将 装 袋 的 预测 优势 和 一 个 易 理 解 的 模型 组 合 起 来 ， 适 用 于 成 
本 敏感 的 预测 。 它 采用 装 袋 技术 建立 一 个 集成 分 类 器 ， 用 这 个 分 类 器 对 训练 数据 重新 赋予 
标签 ， 它 根据 装 袋 所 获得 的 概率 估计 ， 赋 予 每 个 训练 实例 一 个 分 类 预测 使 期 望 成 本 最 小 
化 。MetaCost 随后 丢弃 原先 的 类 标签 ， 从 重新 标记 的 数据 中 学 习 一 个 新 的 模型 ， 比 如 一 个 
剪 梳 的 决策 树 。 新 模型 自动 考虑 成 本 ， 因 为 已 经 含 在 类 标签 中 ! 结果 是 一 个 成 本 敏感 的 分 
类 器 ， 可 用 于 分 析 预 测 是 如 何 获 得 的 。 

除了 刚刚 提 到 的 成 本 敏感 分 类 技术 外 ， 在 5.7 节 中 还 描述 了 一 种 成 本 敏感 的 学 习 方 
法 ， 它 通过 改变 每 个 类 在 训练 数据 中 的 比例 反映 成 本 矩阵 来 学 习 一 个 成 本 敏感 的 分 类 器 。 
MetaCost 似乎 比 这 种 方法 能 获得 更 精确 的 结果 ， 但 它 需 要 更 多 的 计算 。 如 果 不 需要 得 到 一 
个 易于 理解 的 模型 ，MetaCost 的 后 加 工程 序 就 是 多 余 的 : 最 好 直接 使 用 装 袋 后 的 分 类 器 与 
最 小 预期 成 本 法 。 


8.3 随机 化 


装 袋 法 将 随机 性 引入 学 习 算 法 的 输入 中 ,产生 一 个 不 同 的 集成 分 类 器 ， 经 常 带 来 极 好 
的 效果 。 然 而 ， 还 有 其 他 应 用 随机 化 的 方式 来 产生 多 样 性 。 有 些 学 习 算 法 本 身 已 带 有 一 个 
内 置 的 随机 机 构 。 例 如 ， 使 用 反 向 传播 (BP) 算法 学 习 一 个 多 层 感知 机 时 (如 6.4 节 所 
XR), ， 初 始 的 网 络 权 值 被 设 定 为 一 个 随机 选择 的 小 的 数值 。 所 学 习 的 分 类 器 依赖 于 这 个 随 
机 数值 ， 因 为 (根据 这 个 值 ) 算法 会 找到 一 个 不 同 的 误差 函数 的 局 部 最 小 值 。 要 使 分 类 结 
果 更 加 稳定 的 一 种 方法 是 使 用 不 同 的 随机 数 多 次 重复 学 习 过 程 ， 然 后 将 多 个 分 类 器 的 预测 
结果 通过 投票 或 平均 的 方法 组 合 起 来 。 

几乎 所 有 的 学 习 方法 都 含有 某 种 意义 上 的 随机 化 。 考 虑 一 个 算法 要 在 每 步 贪心 式 地 挑 
选 最 好 的 选择 ， 如 决策 树 学 习 咒 在 每 个 结 点 要 挑选 最 好 的 属性 来 进行 分 裂 。 可 以 通过 在 IN 
个 最 好 的 选择 中 随机 挑选 一 个 来 替代 原先 只 能 有 单个 胜 者 的 策略 ， 或 者 随机 选择 一 个 属性 
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子 集 然后 从 中 挑选 出 最 好 的 属性 ， 从 而 将 算法 实现 随机 化 。 当 然 ， 这 里 存在 一 个 权衡 问 
题 : 随机 性 越 大 ， 产 生 的 学 习 器 越 具 有 差异 性 ， 而 另 一 方面 却 更 少 利用 数据 (信息)， 可 
能 会 造成 单个 模型 的 正确 率 下 降 。 最 好 的 随机 范围 只 能 通过 试验 才能 限定 。 

虽然 装 袋 和 随机 化 技术 产生 相似 的 结果 ， 但 要 将 它们 组 合 起 来 有 时 是 有 好 处 的 ， 因 为 
它们 引入 随机 的 方法 不 同 ， 或许 是 互补 型 的 。 一 个 用 于 学 习 随机 森林 的 流行 算法 在 装 袋 的 
每 一 轮 迭 代 中 建立 随机 化 的 决策 树 ， 通 常 能 带 来 出 色 的 预测 结果 。 


8.3.1 随机 化 与 装 袋 


由 于 必须 对 学 习 算 法 进行 修改 ， 所 以 随机 化 比 装 袋 法 需要 更 多 的 工作 量 , 但 是 这 种 技 
术 随 机 化 能 适用 于 更 多 种 不 同类 型 的 学 习 器 。 前 面 我 们 已 经 注意 到 ， 装 袋 法 对 于 那些 输出 
对 输入 发 生 微小 变化 不 敏感 的 稳定 学 习 算法 是 没有 用 处 的 。 例 如 ， 在 最 近邻 分 类 器 上 应 用 
装 袋 技术 就 是 毫 无 意义 的 ， 即 使 采用 重新 取样 将 训练 数据 打 乱 ， 它 们 的 输出 几乎 没有 什么 
改变 。 然 而 ， 随 机 化 却 仍然 适用 于 稳定 的 学 习 器 ， 秘 诀 在 于 所 选用 的 随机 化 方式 能 在 不 牺 
牲 太 多 性 能 的 前 提 下 使 分 类 器 具有 多 样 性 。 最 近邻 分 类 器 的 预测 取决 于 实例 之 间 的 距离 ， 
严重 依赖 于 选择 哪些 属性 来 计算 距离 ， 因 此 最 近邻 分 类 器 可 通过 使 用 不 同 的 、 随 机 挑选 的 
属性 子 集 来 实现 随机 化 。 实 际 上 ， 这 种 方法 也 称 为 随机 子 空 间 (random subspaces) 方法 ， 
它 用 来 构建 一 个 分 类 器 集群 ， 被 认为 是 学 习 随机 森林 的 一 种 方法 。 对 于 装 袋 来 说 ， 学 习 算 
法 是 不 需要 任何 修改 的 。 当 然 ， 为 在 实例 和 属性 两 方面 引入 随机 性 ， 随 机 子 空间 可 以 结合 
装 袋 一 起 使 用 。 

回 到 普通 的 装 袋 ， 其 思想 是 利用 学 习 算 法 的 不 稳定 性 ， 在 分 类 器 集群 成 员 之 间 创 造 多 
样 性 ， 但 获得 多 样 性 的 程度 少 于 其 他 的 集成 学 习 方 法 ， 如 随机 森林 因 其 在 学 习 算 法 中 引入 
了 随机 性 ， 或 者 如 提升 (在 8.4 节 讨论 ) 。 这 是 因为 自助 法 抽样 是 用 类 似 于 原始 数据 的 分 
布 获得 训练 数据 集 。 因 此 ， 用 装 袋 法 学 习 的 分 类 器 是 非常 准确 的 ， 但 是 它们 的 低 多 样 性 可 
能 削减 集群 的 整体 准确 性 。 在 学 习 算 法 中 引入 随机 性 增加 了 多 样 性 ， 但 牺牲 了 单个 分 类 器 
的 准确 性 。 如 果 和 集群 的 成 员 可 以 同时 保持 多 样 性 和 单个 分 类 的 准确 性 ， 就 可 以 使 用 较 小 的 
集群 。 当 然 ， 这 样 会 有 计算 上 的 优势 。 


8. 3.2 旋转 森林 


一 种 称 为 旋转 森林 (rotation forests) 的 集成 学 习 方法 可 以 同时 实现 多 样 性 且 准 确 的 分 
类 。 它 结合 了 随机 子 空间 和 装 袋 方法 ， 利 用 主 成 分 特征 构建 决策 树 集 群 。 在 每 一 次 迭代 
中 ,输入 属性 被 随机 分 为 个 不 相连 的 子 集 。 在 每 个 子 集 依 次 使 用 主 成 分 分 析 ， 以 便 产 生 
子 集中 属性 的 线性 组 合 ， 即 对 原始 轴 的 旋转 。 个 主 成 分 用 于 计算 派生 属性 的 值 ， 这 些 组 
成 了 每 次 迭代 时 树 学 习 器 的 输入 。 因 为 每 个 子 集 的 所 有 分 量 都 保留 着 ， 所 以 有 和 原始 属性 
数目 相同 的 派生 属性 。 如 果 在 不 同 的 迭代 过 程 中 使 用 了 相同 的 特征 子 集 ， 为 避免 产生 相同 
的 系数 ， 主 成 分 分 析 使 用 的 实例 是 来 自 随机 选择 的 类 值 所 对 应 的 数据 子 集 (然而 ， 树 学 习 
器 输入 的 派生 属性 的 值 是 由 训练 数据 中 所 有 实例 计算 得 出 的 ) 。 为 了 进一步 提升 多 样 性 ， 
在 每 一 次 迭代 应 用 主 成 分 转换 之 前 ， 对 数据 使 用 自助 法 抽样 。 

实验 表明 旋转 森林 可 以 用 更 少 的 树 得 到 与 随机 森林 一 样 的 性 能 。 与 装 袋 相 比较 ， 多 样 





性 分 析 (用 Kappa 统计 量度 量 ， 在 5.7 节 中 介绍 过 ， 可 以 用 来 检验 分 类 器 之 间 的 一 致 性 ) 
与 集群 分 类 器 成 员 之 间 误 差 表 示 了 旋转 森林 的 多 样 性 的 最 小 增 量 和 误差 减少 量 。 不 管 怎 
样 ， 这 似乎 可 以 理解 为 将 集群 作为 整体 对 待 获得 了 明显 更 好 的 性 能 。 


8.4 提升 


装 袋 法 充分 利用 了 学 习 算 法 内 在 的 不 稳定 性 。 从 直觉 上 看 ， 只 有 当 各 个 模型 之 间 存 在 
明显 差异 ， 并 且 每 种 模型 都 能 正确 处 理 一 定 合理 比例 的 数据 时 ， 组 合 多 种 模型 才能 发 挥 作 
用 。 理 想 状况 是 这 些 模型 对 其 他 模型 来 说 是 一 个 补充 ， 每 个 模型 是 这 个 领域 中 某 一 部 分 的 
专家 ， 而 其 他 模型 在 这 部 分 的 表现 却 不 是 很 好 ， 就 像 是 决策 者 要 寻 砚 那些 技能 和 经 验 互补 
的 顾问 ， 而 不 是 技能 和 经 验 互相 重复 的 顾问 。 

提升 方法 利用 明确 地 搜寻 与 另 一 个 模型 互补 的 模型 这 个 思想 来 组 合 多 种 模型 。 首 先 ， 
相似 点 是 与 装 袋 一 样 ， 提 升 利 用 投票 (用 于 分 类 ) 或 者 取 平 均值 (用 于 数值 预测 ) 来 组 
合 各 个 模型 的 输出 。 另 外 ， 也 与 装 袋 一 样 ， 它 组 合同 一 类 型 的 模型 ， 例 如 决策 树 。 然 而 ， 
提升 是 迭代 的 。 在 装 袋 中 各 个 模型 是 单独 建立 的 ， 而 提升 的 每 个 新 模型 是 受 先 前 已 建立 模 
型 的 性 能 影响 的 。 提 升 法 鼓励 新 模型 成 为 处 理 先前 模型 所 不 能 正确 分 类 的 实例 的 专家 。 最 
后 一 个 不 同 点 是 ， 提 升 根据 模型 的 性 能 来 对 每 个 模型 的 贡献 加 权 ， 而 不 是 赋予 每 个 模型 相 
同 的 权 值 。 


8.4.1 AdaBoost 算法 


提升 存在 许多 不 同 的 实现 方法 。 这 里 描述 一 种 广泛 应 用 的 、 专 门 用 于 分 类 的 称 为 Ada- 
Boost.M1 的 方法 。 像 装 袋 技术 一 样 ， 它 适用 于 任何 的 分 类 学 习 算法 。 为 了 使 问题 简单 化 ， 
假设 学 习 算 法 可 以 处 理 带 有 权 值 的 实例 ， 实 例 的 权 值 为 正 数 (后 面 我 们 还 会 来 看 这 个 假 
设 )。 实 例 权 值 的 出 现 改 变 了 分 类 误差 的 计算 方法 ， 此 处 误差 等 于 错误 分 类 实例 的 权 值 总 
和 除 以 所 有 实例 的 权 值 总 和 ， 蔡 代 了 原来 错误 分 类 实例 的 比例 。 通 过 实例 加 权 ， 学 习 算 法 
可 以 将 精力 集中 在 特定 的 实例 集 上 ， 即 那些 权 值 较 高 的 实例 。 这 些 实例 特别 重要 ， 因 为 存 
在 较 大 的 动力 要 对 它们 正确 分 类 。6. 1 节 中 讲述 的 C4.5 算法 是 无 需 修改 就 能 适合 加 权 实 
例 的 学 习 方 法 的 一 个 样 例 ， 因 为 它 已 使 用 了 分 数 实例 的 观念 来 处 理 缺 失 值 。 

图 8-2 总 结 了 提升 算法 ， 首 先 赋予 所 有 训练 实例 相同 的 权 值 ， 然 后 应 用 学 习 算 法 在 
这 个 数据 集 上 生成 一 个 分 类 器 ， 再 根据 这 个 分 类 器 的 分 类 结果 对 每 个 实例 重新 加 权 。 减 
小 正确 分 类 的 实例 权 值 ， 增 加 错误 分 类 的 实例 权 值 。 这 产生 了 一 组 权 值 较 低 的 “容易 对 
付 的 ”实例 和 另 一 组 权 值 较 高 的 “难以 对 付 的 ”实例 。 在 下 一 轮 迭 代 以 及 所 有 以 后 的 
迭代 中 ,分 类 器 都 是 建立 在 重新 加 权 的 数据 上 ， 并 且 专 注 于 对 那些 难以 对 付 的 实例 进行 
正确 分 类 。 然 后 依据 这 个 新 分 类 器 的 分 类 结果 增加 或 减 小 实例 的 权 值 。 结 果 是 部 分 较 难 
对 付 的 实例 可 能 变 得 更 难 ， 部 分 较 容 易 对 付 的 实例 可 能 变 得 更 容易 ; 另 一 方面 ， 其 他 较 
难 对 付 的 实例 可 能 变 得 较 容 易 ， 较 容易 对 付 的 实例 可 能 变 得 较 难 对 付 了 ， 在 实践 中 各 种 
可 能 都 会 发 生 。 在 每 一 轮 和 迭代 后 ， 权 值 反 映 出 目前 所 生成 的 分 类 器 对 实例 的 错误 分 类 有 
多 频繁 。 通 过 对 每 个 实例 “难度 ”的 衡量 ， 这 个 程序 提供 了 一 种 巧妙 的 方法 来 生成 一 
系列 互补 型 的 专家 。 
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赋予 每 个 训练 实例 相同 的 权 值 
t 次 循环 中 的 每 一 次 : 
学 习 算 法 应 用 于 加 了 权 的 数据 集 上 并 保存 结果 模型 
计算 模型 在 加 了 权 的 数据 集 上 的 误差 e 并 保存 这 个 误差 
如 果 e 等 于 0 或 者 e 大 于 等 于 0.5: 
终止 建 模型 
对 于 数据 集中 的 每 个 实例 : 
如 果 模 型 将 实例 正确 分 类 : 
将 实例 的 权 值 乘 以 e/ (1-e) 
将 所 有 的 实例 权 值 进行 规范 化 





分 类 


赋予 所 有 类 权 值 为 0 
对 于 t (或 小 于 t) 模型 中 的 每 一 个 。 











返回 权 值 最 高 的 类 





图 8-2 提升 算法 


每 次 迭代 后 ， 权 值 应 做 多 大 的 调整 呢 ? 这 个 答案 依赖 于 当前 分 类 器 的 总 体 误差 。 明 确 
地 说 ， 如 果 e 代表 分 类 器 在 加 权 数 据 上 的 分 类 误差 (在 0 ~1 之 间 ) ， 那 么 对 于 正确 分 类 的 
实例 ， 权 值 更 新 为 

weight +— weight x e/(1 — e) 
对 于 错误 分 类 的 实例 ， 权 值 保 持 不 变 。 当 然 ， 这 并 没有 如 前 所 述 ， 增 加 被 错误 分 类 实例 的 
权 值 。 然 而 ， 在 更 新 了 所 有 实例 的 权 值 后， 要 重新 进行 规范 化 处 理 ， 使 它们 的 权 值 总 和 与 
原来 的 相同 。 每 个 实例 的 权 值 都 要 除 以 新 权 值 总 和 再 乘 以 原来 的 权 值 总 和 。 这 样 就 自动 增 
加 了 每 个 错误 分 类 实例 的 权 值 ， 同 时 减 小 了 每 个 正确 分 类 实例 的 权 值 。 

当 加 权 的 训练 数据 集 上 的 误差 大 于 或 等 于 0. 5 时 ， 提 升 程 序 将 删除 当前 的 分 类 器 并 不 
再 继续 进行 循环 。 当 误差 率 等 于 0 时 ， 也 同样 处 理 ， 因 为 这 时 所 有 实例 的 权 值 都 为 0。 

我 们 已 经 介绍 了 提升 方法 是 如 何 生成 一 系列 分 类 器 的 。 为 了 做 出 一 个 预测 ， 使 用 加 权 
投票 来 组 合 它们 的 输出 。 要 决定 这 些 权 值 ， 注 意 那些 在 加 权 的 训练 数据 上 ， 即 用 于 建立 该 
分 类 器 的 数据 ， 性 能 好 的 分 类 器 (e 接近 于 0) 应 当 获 得 一 个 高 的 权 值 ， 而 性 能 差 的 分 类 
ar (Ce 接近 于 0.5) 则 应 获得 一 个 较 低 的 权 值 。AdaBoost.M1 算法 使 用 : 


weight = — log 1 





—£e 
这 是 一 个 在 0 ~ +o 之 间 的 正 数 。 顺 便 提 一 下 ， 这 个 公式 也 解释 了 为 什么 在 训练 数据 上 性 
能 完美 的 分 类 器 要 删除 ， 因 为 当 e 为 0 时， 权 值 无 定义 。 为 了 做 出 预测 ， 将 投票 给 某 个 具 
体 类 的 所 有 分 类 器 的 权 值 相 加 ， 选 择 相 加 总 和 最 大 的 那个 类 别 。 

从 开始 我 们 就 假设 学 习 算 法 能 够 处 理 加 权 实 例 。 在 6. 6 节 最 后 的 局 部 加 权 线 性 回归 部 
分 中 已 解释 了 如 何 调整 学 习 算 法 以 便 处 理 加 权 实 例 。 也 可 以 通过 重新 抽样 ， 如 装 袋 法 中 使 
用 的 技术 ， 从 加 权 的 数据 集中 产生 一 个 不 考虑 权 值 的 数据 集 ， 从 而 不 用 调整 学 习 算法 。 在 
装 袋 法 中 ， 每 个 实例 被 选择 的 概率 是 相同 的 ; 而 在 提升 法 中 ， 实 例 被 选择 的 概率 与 它们 各 
自 的 权 值 成 正比 。 结 果 是 权 值 高 的 实例 重复 的 频率 高 ， 而 权 值 低 的 实例 可 能 永远 不 会 被 选 





择 。 一 旦 新 数据 集 与 原始 数据 集 的 大 小 相同 ， 就 将 新 数据 集 传送 给 学 习 方法 ， 而 不 使 用 加 
权 的 数据 集 。 这 是 如 此 的 简单 。 

这 个 程序 的 一 个 缺陷 是 有 些 权 值 低 的 实例 不 会 被 选 人 重新 抽样 的 数据 集中 ， 因 此 造成 
在 应 用 学 习 算法 前 ， 部 分 信息 已 丢失 。 然 而 ， 这 也 可 以 成 为 一 种 优点 。 当 学 习 方 法 生成 了 
一 个 误差 大 于 0.5 的 分 类 器 时 ， 如 果 直 接 使 用 加 权 的 实例 ， 提 升 必须 终止 ;而 如 果 采 用 重 
新 抽样 的 方法 ， 可 以 丢弃 目前 重新 抽样 的 数据 集 ， 使 用 不 同 的 随机 种 子 再 次 重新 抽样 ， 生 
成 一 个 新 的 数据 集 ， 那 么 就 有 可 能 会 生成 一 个 误差 小 于 0.5 的 分 类 器 。 有 时 ， 使 用 重新 抽 
样 的 方法 比 原先 采用 加 权 方 法 的 算法 要 进行 更 多 次 的 提升 迭代 。 


8.4.2 提升 算法 的 威力 


提升 技术 的 想法 起 源 于 机 器 学 习 人 研究 的 计算 学 习 理 论 (computational learning theory ) 
这 一 分 支 。 理 论 研究 者 对 提升 感 兴趣 ， 因 为 它 可 能 得 到 性 能 保证 。 例 如 ， 可 以 看 到 随 着 迭 
代 次 数 的 增加 ， 在 训练 数据 上 的 组 合 分 类 器 误差 很 快 地 向 0 靠拢 〈 与 迭代 次 数 呈 指数 级 的 
速度 加 快 ) 。 不 幸 的 是 ,正如 5.1 节 所 述 ， 在 训练 集 上 的 误差 保证 并 不 十 分 令 人 感 兴趣 ， 
因为 这 并 不 表示 在 新 数据 上 会 有 好 的 性 能 。 但 从 理论 上 看 ， 只 有 当 各 个 分 类 器 对 于 所 呈现 
的 总 体 训练 数据 来 说 太 过 “复杂 ” ,或 者 训练 误差 变 得 太 大 、 太 快 时 ， 提 升 技术 才 会 在 新 
数据 上 失败 (Schapire 等 人 1997 年 对 此 做 了 精确 解释 )。 通 常 ， 问 题 在 于 要 找到 各 个 模型 
的 复杂 度 和 它们 与 数据 的 拟 合 度 之 间 的 恰当 平衡 点 。 

如 果 提 升 法 在 新 的 测试 数据 上 能 成 功 地 减 小 误差 ， 它 常常 是 以 一 种 惊人 的 方式 进行 。 
一 个 非常 令 人 惊讶 的 发 现 是 ， 当 在 训练 数据 上 的 组 合 分 类 器 误差 降 到 0 后 ， 持 续 进行 更 多 
次 的 提升 迭代 仍然 能 够 在 新 数据 上 减 小 误差 。 研 究 者 对 这 个 结论 感到 吃惊 ， 因 为 它 似乎 与 
奥 卡 姆 剃刀 原理 相 矛 盾 ， 奥 卡 姆 剃刀 原理 宣称 在 两 个 能 同样 好 地 解释 试验 证 据 的 假设 中 ， 
简单 的 那个 优先 。 进 行 更 多 次 的 提升 迭代 而 不 减少 训练 误差 ， 这 并 没有 对 训练 数据 做 出 任 
何 更 好 的 解释 ， 但 肯定 增加 了 分 类 器 的 复杂 度 。 考 虑 分 类 器 在 所 做 预测 上 的 置信 度 可 以 解 
决 这 个 矛盾 。 更 具体 地 说 ， 这 个 置信 和 度 是 根据 真实 类 的 估计 概率 和 除了 真实 类 以 外 最 有 可 
能 的 预测 类 的 估计 概率 之 间 的 差别 一 一 称 为 边际 (margin) 的 量 来 度量 的 。 这 个 边际 越 
大 ， 分 类 器 能 预测 出 真实 类 的 置信 和 度 就 越 大 。 结 论 是 提升 法 在 训练 误差 降 到 0 之 后 能 增 大 
这 个 边际 。 画 出 达到 不 同 提 升 迭代 次 数 时 ， 所 有 的 训练 实例 的 累积 边际 分 布 ， 可 以 看 到 这 
个 效果 ， 这 个 图 称 为 边际 曲线 (margin curve) 。 因 此 ， 如 果 考 虑 边际 来 解释 试验 证 据 ， 奥 
卡 姆 剃刀 原理 还 是 同样 的 有 力 。 

提升 算法 的 优势 是 : 只 要 简单 分 类 器 在 重新 加 权 数 据 上 的 误差 低 于 50% ， 提 升 算法 可 
以 基于 这 些 非 常 简单 的 分 类 器 产生 出 一 个 功能 强大 的 集成 分 类 器 。' 通 常 ， 这 个 方法 非常 简 
单 ， 特 别 是 对 于 二 分 类 学 习 问 题 ! 这 些 简单 的 学 习 方 法 称 为 弱 学 习 器 (weak learner), ， 提 
升 法 将 弱 学 习 器 转变 为 强 学 习 器 。 例 如 ， 对 于 二 类 问题 ， 将 提升 应 用 于 只 有 一 层 的 、 非 常 
简单 的 决策 树 ， 称 为 决策 桩 (decision stumps) ， 可 以 获得 好 结果 。 另 一 种 可 能 方法 是 将 提 
升 法 应 用 于 学 习 单个 合 取 规 则 的 算法 ， 如 决策 树 上 的 一 条 路 径 ， 实 例 的 分 类 是 依据 这 条 规 
则 是 否 覆盖 了 这 些 实例 。 当 然 ， 多 类 数据 集 误 差 率 要 达到 低 于 0.5 更 困难 些 。 提 升 技术 也 
可 以 应 用 在 决策 树 上 ， 但 通常 比 决策 桩 更 加 复杂 。 有 些 更 为 复杂 的 算法 也 已 发 展 起 来 ， 它 
们 能 对 非常 简单 的 模型 应 用 提升 技术 ， 在 多 类 情形 中 获得 成 功 。 
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258 第 二 部 分 高 级 数据 挖 所 





与 装 袋 技术 相 比 较 ， 应 用 提升 技术 经 常 能 产生 出 在 新 数据 上 精度 明显 提高 的 分 类 器 。 
但 是 与 装 袋 不 同 的 是 ， 提 升 有 时 在 实际 情形 中 会 失败 ， 它 会 产生 出 一 个 分 类 器 ， 人 性 能 明显 
差 于 在 同样 数据 上 建立 的 单个 分 类 器 。 这 表明 集成 分 类 器 和 数据 过 度 拟 合 了 。 


8.5 累加 回归 


关于 提升 的 研究 一 开始 就 激 起 了 研究 者 强烈 的 兴趣 ， 因 为 它 能 从 表现 一 般 的 分 类 器 中 
获得 一 流 的 性 能 。 统 计 学 家 很 快 发 现 它 可 以 重建 成 一 个 累加 模型 的 贪心 算法 。 累 加 模型 在 
统计 学 领域 有 了 相当 长 的 历史 。 一 般 来 说 ,该 术语 泛 指 任 何 将 源 于 其 他 模型 的 贡献 相 加 起 
来 产生 预测 的 方法 。 大 多 数 用 于 累加 模型 的 算法 不 是 独立 建立 基本 模型 ， 而 是 要 保证 与 另 
一 个 模型 互补 ， 并 且 要 根据 某 些 特定 的 标准 来 形成 优化 预测 性 能 的 集成 模型 。 

提升 实现 了 前 向 和 逐步 累加 模型 (forward stagewise additive modeling) 。 这 类 算法 从 一 个 
空 的 集成 模型 开始 ， 相 继 合并 新 成 员 。 在 每 个 阶段 ， 加 入 能 使 总 集成 模型 预测 性 能 达到 最 
好 的 模型 ， 而 不 改变 已 经 包括 在 合成 模型 中 的 成 员 。 对 集成 模型 的 性 能 优化 意味 着 下 一 个 
模型 要 专注 于 那些 在 集成 模型 上 性 能 较 差 的 训练 实例 。 这 正 是 提升 所 做 的 ， 即 赋予 这 些 实 
例 更 大 的 权 值 。 


8.5.1 数值 预测 


这 里 介绍 一 个 众所周知 的 、 用 于 数值 预测 的 前 向 逐步 累加 模型 方法 。 首 先 建立 一 个 标 
准 的 回归 模型 ， 如 一 个 回归 树 。 在 训练 数据 上 的 误差 〈 即 在 预测 值 和 观测 值 之 间 的 差别 ) , 
称 为 残 差 (residual) 。 然 后 学 习 第 二 个 模型 来 纠正 这 些 误 差 ， 也 许 用 另 一 个 回归 树 预 测 观 
测 残 差 。 为 了 达到 这 个 目的 ， 在 学 习 第 二 个 模型 之 前 用 它们 的 残 差 来 代替 原始 的 类 值 。 将 
第 二 个 模型 所 做 出 的 预测 到 加 到 第 一 个 预测 上 自动 降低 在 训练 数据 上 的 误差 。 通 常 某 些 残 
差 仍 然 存在 ， 因 为 第 二 个 模型 也 不 是 完美 的 ， 因 此 继续 建立 第 三 个 模型 来 学 习 预 测 残 差 的 
残 差 ， 以 此 类 推 。 这 个 程序 令 人 回想 起 在 3.4 节 中 所 讨论 的 用 于 分 类 的 、 带 有 例外 的 
规则 。 

如 果 单 个 模型 能 使 预测 的 平方 误差 达到 最 小 值 ， 如 线性 回归 模型 那样 ， 那 么 这 个 算法 
总 体 上 能 使 整个 集成 分 类 器 的 平方 误差 达到 最 小 值 。 在 实践 中 ， 基 本 学 习 器 使 用 一 种 启发 
式 近似 的 方法 效果 也 不 错 ， 如 用 6.6 节 中 介绍 的 回归 和 模型 树 学 习 器 。 实 际 上 ， 在 累加 回 
归 中 使 用 标准 的 线性 回归 作为 基本 学 习 器 是 毫 无 意义 的 ， 因 为 线性 回归 模型 的 总 和 还 是 一 
个 线性 回归 模型 并且 回 归 算 法 本 身 就 能 使 平方 误差 最 小 化 。 然 而 ， 如 果 基 本 学 习 器 是 一 
个 基于 单个 属性 的 、 使 平方 误差 最 小 化 的 回归 模型 ， 情 况 就 不 同 了 。 统 计 学 家 称 它 为 简单 
线性 回归 (simplelinear regression) ， 而 标准 的 多 属性 方法 叫做 多 元 线性 回归 ( multiplelinear 
regression) 。 事 实 上 ， 联 合 使 用 累加 回归 和 简单 线性 回归 ， 并 且 重 复 迭 代 直 到 集成 分 类 器 
的 平方 误差 不 再 降低 ， 就 会 产生 一 个 累加 模型 ， 与 最 小 二 乘 多 元 线性 回归 函数 是 相同 的 。 

前 向 逐步 累加 回归 有 过 度 拟 合 的 倾向 ， 因 为 累加 的 每 个 模型 越 来 越 与 训练 数据 拟 合 。 
使 用 交叉 验证 法 来 决定 何 时 停止 。 例 如 ， 对 不 同和 迭代 次 数 进行 交叉 验证 ， 次 数 的 上 限 为 用 
户 指定 的 某 个 最 大 值 ， 选 择 能 使 平方 误差 的 交叉 验证 估计 达到 最 小 值 的 那个 。 这 是 一 个 好 
的 停止 标准 ， 因 为 交叉 验证 产生 了 一 个 对 未 来 数据 相当 可 靠 的 误差 估计 。 另 外 ， 使 用 上 
述 方法 并 联合 使 用 简单 线性 回归 作为 基本 学 习 器 ， 能 有 效 地 将 多 元 线性 回归 和 内 置 的 属 





性 选择 组 合 起 来 。 因 为 如 果 要 降低 交叉 验证 误差 ， 它 只 能 包含 下 一 个 最 为 重要 的 属性 。 

为 了 实现 方便 ， 前 向 逐步 累加 回归 通常 从 简单 预测 训练 数据 平均 类 值 的 0 层 模型 开 
始 ， 从 而 使 每 个 后 继 模型 与 残 差 拟 合 。 这 也 暗示 了 防止 过 度 拟 合 的 另 一 种 可 能 : 不 要 减 去 
模型 的 整个 预测 值 以 产生 下 一 个 模型 的 目标 值 ， 而 是 在 减法 之 前 先 将 预测 值 乘 以 某 个 用 户 
指定 的 在 0 ~1 之 间 的 常量 来 减 小 预测 值 。 这 降低 了 模型 对 残 差 的 拟 合 ， 从 而 减少 过 度 拟 
合 的 机 会 。 当 然 ， 这 也 可 能 增加 要 获得 一 个 好 的 累加 模型 所 需 的 迭代 次 数 。 减 小 乘 数 能 有 
效 地 衰减 学 习 过 程 ， 增 加 在 恰当 时 刻 停止 的 机 会 ,但 也 增加 了 运行 时 间 。 


8.5.2 累加 Logistic 回归 


累加 回归 也 与 线性 回归 一 样 可 以 应 用 于 分 类 问题 。 然 而 从 4. 6 节 中 了 解 到 ， 对 于 分 类 
问题 Logistic 回归 优 于 线性 回归 。 通 过 修改 前 向 逐步 累加 模型 方法 来 对 累加 模型 进行 类 似 
的 调整 ， 就 可 进行 累加 Logistic 回归 (additive Logistic regression), +5 4.6 节 中 一 样 ， 利 用 
对 数 转换 将 概率 估计 问题 转换 为 一 个 回归 问题 ， 并 像 对 待 累加 回归 那样 使 用 一 个 集成 模型 
(如 回归 树 ) 来 完成 回归 任务 。 在 每 个 阶段 ， 给 定 集成 分 类 器 添加 能 使 数据 的 概率 达到 最 
大 值 的 模型 。 

假设 f 是 集成 分 类 器 中 的 第 j 个 回归 模型 f(a) 是 这 个 模型 对 实例 a 的 预测 。 假 设 
有 一 个 二 类 问题 ， 要 使 用 累加 模型 f(a) 来 获得 第 一 个 类 别 的 概率 估计 : 


1 
ple) = Tae 


这 和 4.6 节 所 用 的 表达 式 非常 类 似 ， 这 里 使 用 了 缩写 ， 用 向 量 来 表示 实例 &， 并 且 将 
原来 的 加 权 属 性 值 总 和 替换 为 任意 复杂 的 回归 模型 了 的 总 和 。 
图 8-3 展示 了 二 分 类 问题 的 LogitBoost 算法 ， 它 进行 累加 Logistic 回归 并 产生 单个 模型 
有 。 这 里 对 于 属于 第 一 个 类 别 的 实例 ，y; 为 1; 对 于 属于 第 二 类 别 的 实例 ，y 为 0。 在 每 次 
迭代 中 ， 这 个 算法 要 使 回归 模型 万 拟 合 原始 数据 集 的 加 权 版 本 ， 这 个 加 权 版 本 基于 假设 的 
类 值 z; 和 权 值 w;。 我 们 假设 p(1 la) 是 根据 前 一 次 迭代 所 建立 的 f 计算 出 来 的 。 
模型 生成 
对 于 j=1 至 t 次 循环 : 
对 于 每 个 实例 a [i]: 


将 回归 的 目标 值 设 定 为 
z[i]-(yli] -pülalil)/IpalaliD»ü- p(1la[il))] 


将 实例 a (1) 的 权 值 w [i] 设 定 为 
p(1la(il)*(1-p(1la[i])) 
使 回归 模型 f [3] 与 类 值 为 z [i] 、 权 值 为 w CL] 的 数据 相 拟 合 








分 类 


如 果 p (11 a) >0.5， 预 测 结果 为 第 一 类 别 ， 否 则 为 第 二 类 别 


图 8-3 累加 Logistic 回归 算法 
这 个 算法 的 推导 过 程 超过 本 书 的 讨论 范围 ,但 是 可 以 看 出 ， 如 果 每 个 模型 是 由 相应 
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的 回归 问题 的 最 小 平方 误差 所 决定 的 ， 那 么 这 个 算法 是 依据 合成 模型 使 数据 概率 最 大 化 。 
实际 上 ， 如 果 用 多 元 线性 回归 来 形成 万 ， 算 法 会 在 最 大 似 然 线性 Logistic 回归 模型 处 收敛 : 
它 是 4. 6 节 中 所 述 的 迭代 重新 加 权 的 最 小 二 乘法 的 另 一 种 形式 。 

从 表面 上 看 ，LogitBoost 和 AdaBoost 差别 相当 大 ， 但 是 它们 所 形成 的 预测 器 的 主要 差 
别 是 前 者 直接 优化 似 然 ; 而 后 者 优化 一 个 指数 的 损失 函数 ， 这 个 函数 可 以 看 成 是 似 然 的 近 
似 值 。 从 实践 角度 来 看 ， 差 别 是 LogitBoost 使 用 了 回归 方法 作为 基本 学 习 器 ， 而 AdaBoost 
与 分 类 算法 一 起 使 用 。 

我 们 只 讲述 了 用 于 二 类 问题 的 LogitBoost 方法 ， 然 而 这 个 算法 还 可 以 推广 到 解决 多 类 
问题。 与 累加 回归 一 样 ， 可 以 用 一 个 预先 设 定 的 乘 数 来 减 小 单个 模型 f 的 预测 值 ， 并 且 利 
用 交叉 验证 来 决定 一 个 适当 的 迭代 次 数 ， 从 而 降低 过 度 拟 合 的 危险 。 


8.6 可 解释 的 集成 器 


装 袋 、 提 升 以 及 随机 化 都 生成 集成 分 类 器 。 很 难 分 析 何 种 信息 从 数据 中 被 提取 出 来 。 
如 能 生成 具有 相同 预测 性 能 的 单个 模型 将 是 很 合 人 意 的。 一 种 可 能 是 生成 一 个 人 工 数据 
集 ， 它 通过 从 实例 空间 随机 采样 数据 点 并 根据 集成 分 类 器 的 预测 来 赋予 它们 类 表 签 ， 然 后 
从 这 个 新 数据 集 上 学 习 一 个 决策 树 或 规则 集 。 为 了 能 从 决策 树 中 获得 与 集成 分 类 器 相似 的 
预测 性 能 ， 可 能 需要 一 个 大 型 的 数据 集 ， 但 是 起 码 这 个 策略 要 能 够 复制 集成 分 类 器 的 性 
能 ， 假 如 集成 分 类 器 本 身 包含 决策 树 ， 那 么 它 肯定 能 做 到 。 


8.6.1 选择 树 


另 一 种 方法 是 取得 能 简洁 地 代表 一 个 集成 分 类 器 的 单个 结构 。 如 果 集 成 分 类 器 是 由 决 
策 树 组 成 ， 这 就 能 实现 ， 它 的 结果 称 为 选择 树 (option tree) 。 选 择 树 与 决策 树 的 不 同 之 处 
在 于 它们 包含 两 种 类 型 的 结 点 : 决策 结 点 和 选择 结 点 。 图 8-4 展示 了 天 气 数据 的 一 个 简单 
例子 ， 它 只 带 有 一 个 选择 结 点 。 为 了 对 一 个 实例 进行 分 类 ， 将 其 随 树 向 下 过 滤 。 在 决策 结 
点 和 平常 一 样 只 选择 一 个 分 支 ， 但 是 在 选择 结 点 则 选择 所 有 的 分 支 。 这 意味 着 实例 最 终 以 
一 个 以 上 的 叶子 结 点 而 告终 ， 必 须 从 这 些 叶 子 结 点 所 获 的 分 类 结果 中 组 合 出 一 个 总 体 分 类 
结果 。 这 可 以 简单 地 通过 投票 法 来 完成 ， 将 在 选择 结 点 获得 多 数 投票 的 类 作为 该 结 点 的 预 
测 值 。 在 这 种 情况 下 ， 只 含 两 种 选择 项 的 选择 结 点 〈 见 图 8-4) 没有 多 大 意义 ， 因 为 只 有 
在 两 个 分 支 都 一 致 时 才 会 产生 一 个 多 数 投票 类 。 另 一 种 可 能 方法 是 对 从 不 同 路 径 上 所 获得 
的 概率 估计 取 平 均值 ， 可 以 使 用 不 加 权 的 平均 或 者 更 为 复杂 的 贝 叶 斯 方法 。 

如 果 根 据 信息 增益 ， 现 存 的 决策 树 中 存在 多 处 效果 相似 的 分 裂 ， 就 可 以 通过 修改 现存 
的 决策 树 学 习 器 来 创建 一 个 选择 结 点 ， 生 成 一 棵 选择 树 。 所 有 在 某 个 用 户 指定 的 最 好 选项 
容许 范围 内 的 选项 均 可 放 入 选择 项 中 。 在 剪 枝 时 ， 选 择 结 点 的 误差 是 它 选项 的 平均 误差 。 

男 一 种 可 能 的 方法 是 通过 递增 地 增加 结 点 来 扩展 一 棵 选择 树 。 通 常 采 用 提升 算法 ， 结 果 
树 通 常 称 为 交替 式 决 策 树 (alternating decision tree) 而 不 是 选择 树 。 这 时 决策 结 点 称 为 分 裂 
结 点 (splitter nodes) ， 选 择 结 点 称 为 预测 结 点 (prediction nodes)。 如 果 没 有 分 裂 结 点 增加 进 
来 ， 预 测 结 点 就 是 叶子 结 点 。 标 准 的 交替 式 决 策 树 能 应 用 于 二 类 问题 ， 每 个 预测 结 点 与 一 个 
正 的 或 负 的 数值 相关 联 。 要 获得 对 一 个 实例 的 预测 ， 将 其 沿 树 向 下 过 滤 所 有 可 适用 的 分 支 ， 
并 将 沿途 遇 到 的 所 有 预测 结 点 的 值 求 和 ， 依 据 总 和 是 正 数 还 是 负数 来 预测 是 哪个 类 别 。 











* overcast 





— overcast 


图 8-4 天 气 数据 的 简单 选择 树 


图 8-5 展示 了 一 个 简单 的 关于 天 气 数 据 的 样本 树 ， 图 中 正 数 对 应 于 类 play = no, 负数 
对 应 于 类 play = yes。 要 对 outlook = sunny, temperature = hot, humidity = normal, windy = 
false 这 个 实例 进行 分 类 ， 将 其 沿 树 向 下 朝 着 相应 的 叶子 结 点 过 滤 ， 获 得 值 - 0.255、 
0.213, -0.430 以 及 -0.331。 这 些 值 的 总 和 是 负 的 ， 因 此 预测 play = yes。 正 如 此 例 所 
示 ， 交 替 式 决策 树 总 是 在 树 根 有 一 个 预测 结 点 。 





图 8-5 天 气 数据 的 交替 式 决策 树 


交替 式 树 应 用 提升 算法 来 进行 扩展 ， 例 如 ， 采 用 先前 所 述 的 LogitBoost 方法 作为 基本 
学 习 器 用 于 数值 预测 的 提升 算法 。 假 设 基 本 学 习 器 在 每 次 提升 迭代 中 产生 一 个 联合 规则 。 
那么 简单 地 将 每 条 规则 加 入 到 树 中 就 能 形成 一 个 交替 式 决策 树 。 与 每 个 预测 结 点 相关 联 的 
数值 评分 是 从 规则 中 获得 的 。 但 是 ， 结 果树 可 能 很 快 就 变 得 很 大 ， 因 为 从 不 同 的 提升 迭代 
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中 所 得 的 规则 很 可 能 是 不 同 的 。 因 此 用 于 交替 式 决策 树 的 学 习 算法 只 考虑 那些 通过 增加 一 
个 分 裂 结 点 和 两 个 相应 的 预测 结 点 (假设 是 二 值 分 裂 ) 来 扩展 树 中 某 条 现存 路 径 的 规则 。 
在 标准 版 本 的 算法 中 ， 要 考虑 在 树 中 每 个 可 能 位 置 增加 结 点 ， 按 照 具体 的 提升 算法 所 决定 
的 性 能 度量 来 进行 结 点 添加 。 可 用 启发 式 的 方法 来 替代 穷 举 搜索 以 提高 学 习 过 程 的 速度 。 


8.6.2 Logistic 模型 树 


基于 单个 结构 的 选择 树 和 交替 式 决策 树 都 能 获得 非常 好 的 分 类 性 能 ， 但 是 当 含 有 许多 
选择 结 点 时 仍然 很 难 解释 ， 因 为 很 难看 出 一 个 具体 的 预测 是 如 何 获得 的 。 然 而 ， 人 们 发 现 
提升 也 可 以 用 于 建立 一 个 不 包含 任何 选择 结 点 的 十 分 有 效 的 决策 树 。 例 如 ， 应 用 Logit- 
Boost 算法 归纳 出 一 种 树 ， 树 的 叶子 结 点 为 线性 Logistic 回归 模型 ， 称 为 Logistic 模型 树 
(Logistic model trees) ， 并 可 用 像 6. 6 节 所 介绍 的 用 于 回归 的 模型 树 一 样 的 方法 来 进行 
解释 。 

LogitBoost 执行 累加 Logistic 回归 。 假 设 在 提升 算法 的 每 次 迭代 中 要 找到 一 个 合适 的 简 
单 回归 函数 ， 它 考虑 所 有 属性 ， 找 出 误差 率 最 小 的 简单 回归 函数 ， 并 将 其 加 入 到 累加 模型 
中 。 如 果 让 LogitBoost 算法 持续 运行 直至 收敛 ， 结 果 得 到 的 是 一 个 最 大 似 然 多 元 Logistic E 
归 模 型 。 然 而 ， 为 了 优化 它 在 未 来 数据 上 的 性 能 ， 通 常 没 有 必要 等 到 收敛 ， 这 样 做 经 常 是 
有 害 无 益 的 。 可 以 对 给 定 的 迭代 次 数 使 用 交叉 验证 估计 期 望 性 能 ， 当 性 能 指标 停止 上 升 时 
则 停止 程序 ， 这 样 可 以 决定 提升 的 大 概 迭 代 次 数 。 

这 个 算法 的 一 个 简单 扩展 就 可 得 到 Logistic 模型 树 。 当 数据 中 不 再 存在 任何 结构 可 以 
用 一 个 线性 Logistic 回归 函数 来 建 模 时 ,终止 提升 程序 。 但 是 ， 如 果 将 注意 力 限定 在 数据 
的 子 集 上 上， 也 许 仍然 存在 可 用 线性 模型 来 匹配 的 某 种 结构 ， 这 些 数据 子 集 可 以 通过 标准 决 
策 树 等 使 用 的 信息 增益 将 原始 数据 分 裂 得 到 。 一 旦 添加 更 多 的 简单 线性 模型 也 不 再 能 获得 
性 能 提高 ， 就 分 裂 数 据 ， 在 每 个 数据 子 集 上 各 自重 新 开始 提升 。 这 个 过 程 将 目前 所 生成 的 
Logistic 模型 分 别 在 每 个 子 集 的 数据 上 进行 精练 。 在 每 个 子 集 上 再 次 使 用 交叉 验证 决定 在 
该 子 集 上 合适 的 迭代 次 数 。 

递归 地 应 用 这 个 程序 直到 子 集 太 小 为 止 。 结 果树 肯定 会 对 训练 数据 过 度 拟 合 ， 可 以 用 
决策 树 学 习 的 一 个 标准 方法 来 剪 枝 结果 树 。 实 验 表 明 剪 枝 过 程 非常 重要 。 使 用 6. 1 节 中 讨 
论 的 交叉 验证 法 来 选择 合适 的 树 大 小 ， 采 用 这 样 的 策略 能 使 这 个 算法 生成 小 但 非常 精确 的 
树 ， 树 的 叶子 结 点 带 有 线性 Logistic 模型 。 


8.7 HER 


堆栈 式 泛 化 (stacked generalization) ， 或 简称 堆栈 (stacking) 是 组 合 多 种 模型 的 另 一 
种 不 同 的 方法 。 虽 然 是 在 好 些 年 以 前 就 开发 了 ， 但 不 如 装 袋 和 提升 应 用 广泛 ， 一 部 分 原因 
是 它 难以 进行 理论 分 析 ， 另 一 部 分 原因 是 它 没有 一 致 公认 的 最 好 的 实现 方法 一 一 它 的 基本 
思想 可 以 应 用 于 许多 不 同 的 变 体 中 。 

与 装 袋 和 提升 不 同 ， 堆 栈 法 通常 不 用 于 组 合同 种 类 型 的 模型 ， 如 一 系列 的 决策 树 。 相 
反 它 应 用 于 由 不 同学 习 算 法 所 创建 的 模型 。 假 设 有 一 个 决策 树 归纳 器 、 一 个 朴素 贝 叶 斯 学 
习 器 和 一 个 基于 实例 的 学 习 方 法 ， 要 用 某 个 给 定 的 数据 集 形 成 一 个 分 类 器 。 通 常 的 程序 是 
使 用 交叉 验证 法 估计 每 个 算法 的 期 望 误差 ， 然 后 从 中 选择 一 个 最 好 的 模型 用 于 在 未 来 的 数 





据 上 做 预测 。 难 道 没有 更 好 的 方法 吗 ” 现 有 三 个 学 习 算 法 ， 难 道 不 能 利用 三 个 (模型 ) 来 
预测 ， 然 后 将 输出 结果 组 合 起 来 吗 ? 

一 种 组 合 输出 的 方法 是 使 用 投票 ， 就 像 装 袋 中 所 使 用 的 机 制 一 样 。 但 是 ， 如 果 学 习 方 
案 性 能 差不多 好 ，( 不 加 权 的 ) 投票 才 有 意义 。 如 果 三 个 分 类 器 中 有 两 个 所 做 的 预测 是 不 
正确 的 ， 就 会 有 麻烦 ! 然而 ， 堆 栈 引 入 了 代替 投票 程序 的 元 学 习 器 (meta-leamer) 概念 。 
投票 的 问题 在 于 不 清楚 应 该 相信 哪个 分 类 器 。 堆 栈 试 图 去 学 习 哪 些 分 类 器 是 可 靠 的 ， 它 使 
用 另 一 种 学 习 算法 ， 即 元 学 习 器 ， 来 揭示 怎样 才能 最 好 地 组 合 基本 学 习 器 的 输出 。 

元 模型 的 输入 也 称 为 1 AA (level-1 model), ， 是 基本 模型 (或 称 为 0 层 模 型 (lev- 
el-0 model)) 所 做 出 的 预测 。1 层 实例 所 含 的 属性 数量 等 于 0 层 学 习 器 的 个 数 ， 属 性 值 是 
这 些 学 习 器 对 相应 的 0 层 实例 所 做 出 的 预测 。 当 使 用 堆栈 学 习 器 进行 分 类 时 ， 首 先 将 实例 
输入 0 层 模 型 中 ， 每 个 模型 猜测 一 个 类 值 。 将 这 些 猜测 值 输入 1 层 模型 ，1 层 模 型 将 它们 
组 合 输出 最 终 的 预测 。 

还 存在 训练 1 层 学 习 器 的 问题 。 需 要 找到 能 将 0 层 训 练 数据 (用 于 训练 0 层 学 习 器 ) 

转换 为 1 层 训 练 数 据 (用 于 训练 1 层 学 习 器 ) 的 方法 。 这 似乎 很 简单 ， 让 每 个 0 层 模 型 对 
训练 实例 进行 分 类 ， 将 实例 的 真实 类 别 附加 到 它们 的 预测 结果 上 得 到 1 层 的 训练 实例 。 不 
幸 的 是 ， 效 果 不 怎 么 好 。 它 允许 学 习 这 样 的 规则 ， 如 总 是 相信 分 类 器 A 的 输出 却 忽略 了 B 以 
A C 的 输出 。 这 个 规则 也 许 对 于 某 些 特定 的 基本 分 类 器 A、B 和 C 是 适合 的 ， 如 果真 是 这 
FÉ, 或 许 就 会 被 学 习 到 。 但 是 ， 只 是 似乎 适合 训练 数据 并 不 意味 着 在 测试 数据 上 会 好 ， 因 
为 这 不 可 避免 地 会 更 倾向 于 对 训练 数据 过 度 拟 合 的 分 类 器 ， 而 不 是 那些 能 够 做 出 与 实际 更 
相符 决策 的 分 类 器 。 
”因此 ,堆栈 不 是 简单 地 用 这 种 方法 将 0 层 训练 数据 转换 为 1 层 训 练 数据 。 回 顾 第 5 章 
中 所 述 的 ， 有 比 使 用 训练 集 上 的 误差 率 更 好 的 方法 来 估计 分 类 器 的 性 能 。 一 种 方法 是 旁 置 
部 分 实例 ， 并 用 它们 进行 独立 的 评估 。 将 这 个 方法 应 用 于 堆栈 ， 保 存 部 分 实例 作为 形成 1 
层 学 习 器 的 训练 实例 ， 用 其 余 的 实例 来 建立 0 层 分 类 器 。 一 旦 建立 了 0 层 分 类 器 ， 就 用 它 
们 对 旁 置 的 实例 进行 分 类 ， 如 先前 所 述 那样 形成 1 层 训 练 数 据 。 由 于 0 层 分 类 器 没有 用 这 
些 数据 训练 ， 所 以 对 它们 所 做 的 预测 是 无 偏 的 。 因 此 ，1 层 训 练 数据 能 精确 反映 0 层 学 习 
算法 的 真实 性 能 。 一 旦 采用 这 种 旁 置 过 程 生成 了 1 层 数据 ， 就 可 再 次 应 用 0 层 学 习 器 在 整 
个 训练 数据 上 训练 生成 分 类 器 ， 以 更 好 地 利用 数据 并 获得 更 好 的 预测 。 

旁 置 法 不 可 避免 地 和 剥夺 了 1 层 模 型 的 部 分 训练 数据 。 在 第 5 章 中 介绍 了 交叉 验证 法 作 
为 在 误差 估计 时 避免 这 个 问题 出 现 的 一 种 方法 。 这 种 方法 也 可 以 和 堆栈 一 起 联合 使 用 ， 对 
每 个 0 层 学 习 器 执行 交叉 验证 。 训 练 数 据 中 的 每 个 实例 正好 在 某 个 交叉 验证 测试 折 中 出 现 
一 次 ， 并 将 由 相应 的 训练 折 所 建立 的 0 层 模型 对 其 做 出 的 预测 用 于 生成 1 层 训练 实例 。 这 
为 每 个 0 层 训 练 实例 生成 了 一 个 1 层 训 练 实例 。 当 然 ， 由 于 0 层 分 类 器 要 在 交叉 验证 的 每 
个 折 上 训练 ， 因 此 速度 较 慢 ,但 是 它 能 让 1 层 分 类 器 使 用 整个 训练 数据 。 s 

对 于 某 个 给 定 的 测试 实例 ， 大 多 数 的 学 习 方 法 能 够 输出 每 个 类 别 的 概率 来 代替 只 做 类 
别 预测 。 使 用 概率 来 生成 1 层 数据 能 改进 堆栈 的 性 能 。 这 与 标准 程序 的 区 别 只 是 在 于 每 个 
1 层 的 名 目 属 性 (表示 0 层 学 习 器 做 出 的 预测 类 别 ) 被 多 个 数值 属性 所 代替 ， 每 个 属性 代 
表 由 0 层 学 习 器 所 得 到 的 一 种 类 概率 输出 。 换 句 话 说， 在 1 层 数据 中 的 属性 数量 是 类 别 数 
目的 倍数 。 这 个 过 程 有 一 个 益处 ，1 层 学 习 器 能 了 解 每 个 0 层 学 习 器 对 它 所 做 预测 的 置信 
度 ， 从 而 加 强 两 层面 学 习 之 间 的 交流 。 
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还 有 一 个 重要 的 问题 ,1 层 学 习 器 适合 使 用 什么 样 的 算法 呢 ? 原 则 上 ， 任何 学 习 方案 
都 可 以 用 。 但 是 ， 因 为 大 多 数 工作 已 由 0 层 学 习 器 完成 了 ，1 层 分 类 器 只 是 一 个 仲裁 者 ， 
所 以 选择 一 种 相对 简单 的 算法 来 达到 此 目的 是 有 意义 的 。 堆 栈 的 发 明 者 David Wolpert 说 过 
“相对 全 局 化 、 平 滑 ” 的 1 层 泛 化 器 的 效果 会 较 好 。 简 单 的 线性 模型 或 在 叶子 结 点 带 有 线 
性 模型 的 树 通 常 表现 较 好 。 

堆栈 也 适用 于 数值 预测 。 在 这 种 情形 下 ，0 层 模型 和 1 层 模型 都 要 预测 数值 。 基 本 的 
机 制 还 是 一 样 的 ， 差 别 只 是 在 于 1 层 数 据 的 特性 。 在 数值 情况 下 ， 每 个 1 层 属 性 代表 某 个 
0 层 模 型 所 做 出 的 数值 预测 ， 数 值 型 的 目标 值 被 附加 在 1 层 训练 实例 上 来 代替 原来 的 类 值 。 


8.8 补充 读物 


集成 学 习 在 机 器 学 习 研 究 领域 是 一 个 热门 研究 课题 ， 已 有 很 多 相关 的 出 版 文献 。 术 语 
RR 〈 即 自助 聚集 ) 是 由 Breiman( 1996) 提出 的 ， 他 从 理论 角度 、 试 验 角度 对 用 于 分 类 
和 数值 预测 的 装 袋 特性 都 做 了 研究 。 

8.2 节 中 提 到 的 用 于 分 类 问题 的 偏差 -方差 分 解 归 功 于 Dietterich 和 Kong(1995)。 选 
择 这 个 版 本 是 因为 它 容易 理解 且 优 雅 。 然 而 ,方差 可 以 被 证 明 为 负 ， 因 为 正如 前 面 所 提 到 
的 ， 通 过 投票 从 多 个 独立 的 训练 数据 得 到 聚集 模型 可 能 在 病态 情况 下 比 从 单个 数据 集中 得 
到 的 模型 实际 增加 了 整体 误差 。 这 是 一 个 严重 的 缺陷 ， 因 为 方差 通常 是 平方 量 级 ， 即 标准 
偏差 的 平方 ， 因 此 不 能 为 负 。Breiman(1996) 在 他 的 技术 报告 中 提出 了 一 种 不 同 于 以 往 
的 、 用 于 分 类 的 偏差 -方差 分 解 。 这 在 学 术 界 引起 了 一 些 混乱 ， 因 为 可 以 在 网 上 下 载 这 个 
报告 的 三 种 不 同 的 版 本 。 官 方 版 本 ， 题 为 “Arcing classifiers”， 介 绍 了 一 种 更 为 复杂 的 分 
解 ， 不 能 构造 得 到 负 的 方差 。 但 是 ， 原 始 版 本 的 标题 为 “Bias variance, and arcing classi- 
fiers” 沿 用 了 Dietterich 和 Kong 的 公式 〈 除 此 以 外 ，Breiman 将 术语 偏差 分 解 为 偏差 加 上 品 
声 ) 。 还 存在 一 种 沿用 原始 标题 的 中 间 版 本 的 新 分 解 ， 这 个 版 本 的 附录 部 分 Breiman 解释 
了 他 据 弃 原始 定义 的 原因 是 它 可 以 产生 负 的 方差 〈 官 方 解 释 称 ， 作 者 有 时 错误 地 参考 了 早 
期 的 、 已 经 被 取代 的 草稿 ， 或 者 给 最 新 的 版 本 使 用 了 早期 的 标题 ) 。 但 是 ， 在 新 版 本 里 
(和 其 他 作者 提出 的 分 解 里 ) 聚合 分 类 器 的 偏差 可 能 超过 由 单个 训练 集 建 立 的 分 类 器 的 偏 
差 ， 这 似乎 违反 了 直觉 。 

MetaCost 算法 是 由 Domingos(1999) 提出 的 。 

随机 子 空间 方法 被 认为 是 用 于 学 习 集成 分 类 器 的 一 种 方法 ， 由 Ho(1998) 提出 ,将 其 
作为 一 种 学 习 最 近邻 分 集成 类 器 的 方法 应 用 ， 是 由 Bay(1999) 实现 的 。Dietterich ( 2000) 
对 随机 化 进行 了 评估 ， 并 将 它 与 装 袋 和 提升 相 比较 。 随 机 森林 由 Breiman(2001) 提出 。 旋 
转 森 林 作 为 一 种 相对 较 新 的 集成 学 习 方法 由 Rodriguez 等 (2006) 提出 。Kuncheva 和 Ro- 
driguez(2007) 进行 的 后 续 研 究 表明 ， 其 性 能 的 主要 影响 因素 是 主 成 分 转换 的 使 用 〈 与 其 
他 特征 提取 方法 ， 如 随机 投影 ， 完 全 不 同 ) 和 在 原始 的 输入 属性 随机 子 空间 上 使 用 主 成 分 
分 析 。 

Freund 和 Schapire(1996) 开发 了 AdaBoost.M1 提升 算法 ， 并 获得 了 这 个 算法 性 能 的 理 
论 边 界 。 随 后 ， 他 们 又 应 用 边际 的 概念 改进 了 这 些 边界 (Freund 和 Schapire，1999 ) 。 
Drucker( 1997) 修改 了 AdaBoost.M1 使 其 能 用 于 数值 预测 。LogitBoost 算法 是 由 Friedman 等 
(2000) 开发 的 。Friedman(2001) 介绍 了 如 何 使 提升 在 有 噪声 数据 时 更 有 弹性 。 





Domingos(1997) 介绍 了 怎样 利用 人 工 训 练 实例 从 一 个 合成 分 类 器 中 获得 易于 说 明 的 
单个 模型 。 贝 叶 斯 选择 树 是 由 Buntine(1992) 提出 的 ，Kohavi 和 Kunz(1997) 将 多 数 投票 
法 和 选择 树 结 合 应 用 。Freund 和 Mason(1999) 引入 了 交替 式 决 策 树 ; Holmes 等 (2002) 
对 多 类 交替 式 决 策 树 进 行 了 试验 。Landwehr 等 (2005) 用 LogitBoost 算法 开发 了 Logistic 
模型 树 。 

堆栈 式 泛 化 是 由 Wolpert (1992) 发 明 的 ， 他 在 神经 网 络 文献 中 提出 这 个 想法 ; 
Breiman(1996a) 将 其 应 用 于 数值 预测 。Ting 和 Witten(1997a) 通过 试验 比较 了 不 同 的 1 
层 模型 ， 结 果 发 现 使 用 简单 的 线性 模型 效果 最 好 ; 他 们 还 证 明了 利用 概率 作为 1 层 数据 的 
益处 。 他 们 还 对 堆栈 和 装 袋 的 组 合 进行 了 探索 (Ting 和 Witten, 1997b) 。 


8.9 Weka 实现 


在 Weka 平台 中 ， 集 成 学 习 通 过 使 用 “元 学 习 器 ”的 机 制 实现 ,在 11. 2 节 结 尾部 分 
有 介绍 。 除 了 RandomForest 分 类 器 包含 于 Weka MAH (I 11.4 节 和 表 11-5) 以 及 可 解 
释 的 集成 器 在 此 处 列 出 外 ， 其 他 所 有 内 容 都 包含 在 11.5 节 中 ， 同 时 在 表 11-6 中 列 出 。 

e BR: 

o Bagging( 对 一 个 分 类 器 装 袋 ; 也 可 用 于 回归 ) 。 
o MetaCost ( 使 一 个 分 类 器 成 为 成 本 敏感 的 ) 。 
e 随机 化 : 
© RandomCommittee( 使 用 不 同 随机 数 种 子 的 集成 器 ) 。 
o RandomSubSpace ( 使 用 随机 属性 子 集 的 集成 器 ) 。 
© RandomForest ( 随机 树 集成 器 ) 。 
o RotationForest( 使 用 旋转 随机 子 空 间 的 集成 器 ) 。 
o 提升 : AdaBoostM1 , 
e 累加 回归 : 
o AdditiveRegression 。 
9 LogitBoost( 累加 Logistic 回归 ) 。 
e 可 解释 集成 器 : 
o ADTree( 交 替 决 策 树 ) 。 
o LADTree( 使 用 LogitBoost 学 习 交 替 决 策 树 ) 。 
o LMT( Logistic 模型 树 ) 。 
e 选择 或 组 合算 法 : 
© MultiScheme( 使 用 交叉 验证 做 选择 ) 。 
o Vote ( 预测 值 的 简单 组 合 ) 。 
o Stacking( 学习 如 何 组 合 预测 值 ) 。 
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机 器 学 习 是 从 数据 中 挖掘 知识 的 一 项 新 兴 技 术 ， 许 多 人 开始 认真 地 审视 这 项 技术 。 我 
们 不 想 过 度 吹 咕 ， 我们 所 了 解 的 机 器 学 习 并 非 是 用 来 干 大 事 的 ， 比 如 未 来 的 自动 机 器 仆 
佣 、 关 于 认 知 的 哲学 迷 题 、 有 关 超 自然 的 自由 意志 的 话题 、 关 于 智慧 从 何 而 来 的 进化 论 或 
者 关于 神学 的 问题 、 语 言 学 习 方面 的 辩论 、 关 于 儿童 成 长 方面 的 心理 学 理论 ， 或 者 关于 智 
能 为 何 物 、 又 是 如 何 工作 的 认 知 解释 等 。 机 器 学 习 在 我 们 心目 中 要 平凡 得 多 ， 机 器 学 习 是 
能 从 数据 中 推断 出 结构 的 那些 算法 ， 以 及 验证 这 些 结构 的 方法 。 这 些 算 法 既 不 深奥 也 不 复 
杂 ， 但 它们 也 不 是 显而易见 的 ， 或 者 不 重要 的 。 

用 发 展 的 眼光 来 看 ， 最 大 的 挑战 在 于 应 用 。 机 会 俯 拾 皆 是 。 哪 里 有 数据 ， 哪 里 就 有 可 
以 学 习 的 东西 。 当 数据 过 多 ， 人 们 自身 的 脑力 无 法 承受 时 ， 学 习 的 手段 就 必须 是 自动 的 。 
但 是 灵感 是 绝 不 可 能 “自动 ”产生 的 ! 应 用 不 可 能 来 自 计 算 机 程序 ， 也 不 可 能 来 自 机 器 学 
习 专 家 ， 或 者 数据 本 身 ， 只 能 来 自 与 数据 和 问题 起 源 打 交道 的 人 。 这 正 是 我 们 编写 本 书 ， 
以 及 第 三 部 分 叙述 的 Weka 系统 的 目的 所 在 ， 让 那些 非 机 器 学 习 专 家 的 人 们 有 能 力 将 这 些 
技术 运用 到 日 常 工作 中 去 解决 问题 。 思 想 方 法 是 简单 的 ， 算 法 就 在 这 里 ， 其 余 的 就 要 看 读 
者 自己 了 ! 

当然 ， 这 项 技术 的 发 展 还 没有 完成 。 机 器 学 习 是 一 项 热门 研究 课题 ， 新 的 思想 和 技术 
还 在 不 断 涌现 。 为 了 给 读者 提供 一 些 有 关 研 究 前 沿 的 范围 和 研究 种 类 ， 我 们 来 关注 当今 数 
据 挖掘 领域 的 一 些 热 门 课 题 ， 以 此 来 结束 本 书 的 第 二 部 分 。 


9.1 应 用 数据 挖掘 
2006 年 由 国际 数据 挖掘 会 议 (International Data Mining Conference) 主办 方 做 了 一 项 推 





举 前 十 位 数据 挖掘 算法 的 民意 调查 。 表 9-1 E 表 9-1 数据 挖掘 前 十 大 算法 
顺序 展示 了 调查 结果 。 很 高 兴 的 是 本 书包 含 了 算法 类 别 书 中 章节 
所 有 的 算法 ! 会 议 主办 方 对 这 些 算法 做 了 粗糙 1 «43 分 类 4.3, 6.2 

一 2 天 均值 RH 4.8 

的 分 类 ， 同 样 在 表 中 列 出 。 大 多 数 的 分 配 都 是 is IAE “ea 
相当 随意 的 ， 如 朴素 贝 叶 斯 ， 显 然 是 一 个 统计 4 Apriori 关联 分 析 4.5，6.3 

学 习 算 法 ， 并 且 我 们 将 EM 作为 基于 统计 的 聚 5 EM 2 6.8 

* 一 Y 6 PageRank 2l 9.6 

类 算法 。 然 而 ， 同 时 也 发 现 对 分 类 的 重视 超过 estin MEX 084 
其 他 形式 的 学 习 ， 这 也 反映 了 本 书 的 重点 ， 表 8 ANN 分 类 4.7, 6.5 

9-1 中 C4. 5 的 主导 地 位 即 是 最 好 的 证 据 。 在 表 9 Naive Bayes 分 类 4.2 

10 CART 分 类 6.1 


9-1 所 列 出 的 算法 中 ,我 们 惊讶 地 发 现 有 一 种 注 : 这 里 的 信息 来 自 2006 年 国际 数据 控 握 会 议 的 
到 目前 为 止 还 没有 提 到 的 算法 ， 即 用 于 链接 控 一 项 民意 调查 。 
据 的 PageRank 算法 。 在 9.6 节 会 有 简单 的 介绍 。 

本 书 一 再 强调 有 效 地 利用 数据 挖 气 不 仅仅 意味 着 找到 一 些 数据 然后 盲目 地 在 其 上 应 用 
学 习 算法 。 当 然 ，Weka 工作 平台 的 存在 使 得 这 些 很 容易 做 到 ， 然 而 其 中 也 存在 隐患 。 很 
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多 的 出 版 物 似 乎 都 遵循 这 样 一 个 方法 : 作者 在 一 个 特定 的 数据 集 上 运行 大 量 的 学 习 算 法 ， 
然后 写 一 篇 文章 宣称 某 学 习 算 法 最 适合 于 解决 某 问 题 ， 而 很 少 理解 这 些 算法 做 的 什么 或 者 
很 少 考虑 统计 学 意义 。 这 种 研究 的 有 效 性 是 有 问题 的 。 

多 年 来 都 有 报道 的 一 类 相关 但 不 同 的 问题 关注 的 是 机 器 学 习 算 法 的 改进 。2006 年 ， 一 
篇 刺激 性 的 标题 为 “Classifier technology and the illusion of progress" 的 论文 ， 由 David 
Hand， 著 名 的 统计 学 家 和 机 器 学 习 研 究 者 发 表 ， 指 出 有 太 多 的 算法 专 为 有 监督 分 类 设计 ， 
并 进行 大 量 的 对 比 研究 确立 了 新 算法 相 比 先驱 算法 的 优势 地 位 。 但 是 ， 他 认为 关于 这 些 研 
究 所 出 版 的 文献 看 似 持 续 稳 步 地 发 展 ， 而 实际 上 存在 很 大 程度 上 的 虚构 。 这 个 消息 让 人 想 
起 大 约 15 年 前 ， 本 书 第 4 章 提 到 的 IR 机 器 学 习 方 案 。 正 如 当时 所 指出 的 那样 ，1R 并 未 
真正 打算 作为 机 器 学 习 的 “方法 ”而 是 被 设计 用 于 演示 将 高 性 能 的 归纳 推理 方法 用 于 简单 
的 数据 集 ， 就 像 是 使 用 一 个 大 锤 来 敲打 一 个 小 螺母 一 样 。 这 种 观点 蕴含 的 就 是 遍布 于 本 书 
的 简单 优先 的 法 则 ，Hand 最 近 的 文章 就 是 有 益 的 提示 。 

在 度量 分 类 成 功 与 否 时 ， 结 果 表 明 有 改善 的 情况 下 ， 怎 么 说 进展 在 很 大 程度 上 是 虚构 
的 呢 ? 基本 的 说 法 是 ， 在 实际 应 用 中 性 能 的 差异 是 很 小 的 ， 并 且 可 能 被 其 他 不 确定 因素 所 

盖 。 有 很 多 原因 导致 这 种 情况 。 简 单方 法 表现 得 可 能 不 像 复杂 方法 一 样 好 ， 但 通常 也 能 
表现 得 几乎 一 样 好 。 一 个 极其 简单 的 模型 ， 如 总 是 选择 多 数 类 ， 设 置 了 一 条 基准 线 ， 任 何 
学 习 算 法 都 应 该 能 够 在 基准 线 上 有 所 改善 。 考 虑 简单 方法 所 获得 的 超过 基线 的 改善 与 复杂 
方法 所 获得 的 改善 之 间 的 比例 。 对 于 各 种 随机 选择 的 数据 集 ， 结 果 表 明 一 个 非常 简单 方法 
所 获得 的 改善 是 最 复杂 方案 所 获得 改善 的 90% 以 上 。 这 也 并 不 奇怪 。 在 标准 的 分 类 方法 
中 ， 如 决策 树 和 规则 ， 在 程序 流程 开始 时 第 一 条 分 支 或 规则 确定 了 之 后 ， 就 预测 准确 度 而 
言 便 获 得 了 巨大 比例 的 提高 ， 而 后 续 的 提高 很 小 ， 通 常 确 实 是 非常 小 。 

小 的 改善 很 容易 被 其 他 因素 所 掩盖 。 机 器 学 习 的 一 个 基本 假设 是 训练 数据 代表 了 会 被 
选择 的 将 来 数据 的 分 布 情况 ， 该 假设 通常 是 指数 据 是 独立 同 分 布 的 〈ID ) 。 但 是 在 现实 生 
活 中 情况 会 有 变化 。 然 而 ， 训 练 数据 通常 是 有 可 追溯 性 的 ， 可 能 会 相当 的 旧 。 考 察 1.3 节 
中 介绍 的 贷款 场景 。 为 了 收集 大 批量 的 训练 数据 (全面 的 训练 需要 大 批量 的 数据 ) ， 必 须 
等 到 大 量 的 贷款 被 发 布 。 然 后 还 必须 等 到 已 知 结果 租赁 期 (2 年 ? 5 年 ?) 结束 。 到 那 时 ， 
我 们 再 用 它 来 进行 训练 ， 这 些 数据 就 是 相当 旧 了 。 在 此 期 间 什 么 是 已 经 发 生变 化 的 ? 已 经 
有 新 的 做 事 方 式 。 银 行 已 经 改变 了 度量 基于 何 种 特征 ORR) 的 方法 。 新 的 特征 已 经 在 
使 用 ，( 贷款) 政策 也 已 经 改变 。 以 前 的 数据 真 的 能 代表 现在 的 问题 吗 ? 

另 一 个 基本 问题 是 训练 数据 类 标的 可 靠 性 。 可 能 会 有 小 的 误差 ， 随 机 或 者 系统 误差 ， 
在 这 种 情况 下 ， 需 要 坚持 更 简单 的 模型 ， 因 为 高 层次 的 、 更 复杂 的 模型 可 能 会 不 准确 。 在 
确定 类 标 时 ， 某 些 人 在 某 些 地 方 ， 可 能 会 将 灰色 的 世界 映射 为 一 个 黑白 世界 ， 这 就 需要 判 
断 和 容许 不 一 致 性 。 事 情 可 能 会 变 : 在 一 项 贷款 中 “违约 者 ”的 概念 ， 即 三 个 月 未 偿还 账 
单 者 ， 比 起 之 前 的 概念 可 能 略 有 不 同 ， 在 今天 的 经 济 环境 下 ， 处 于 困境 中 的 客户 在 启动 法 
律 程序 之 前 ， 可 能 会 多 给 几 个 月 的 余地 。 关 键 不 是 学 习 必 然 会 失败 。 变 化 可 能 是 相当 微妙 
的 ， 学 习 模 型 可 能 仍然 工作 得 很 好 。 关 键 是 复杂 模型 所 获得 的 超过 简单 模型 的 额外 的 百 分 
之 几 的 增益 可 能 会 被 其 他 因素 所 掩盖 。 

另 一 问题 是 ， 在 观察 对 比 实验 和 机 器 学 习 方 法 时 ， 谁 是 主导 者 。 这 不 仅仅 是 运用 各 种 
不 同 的 方法 然后 记录 其 结果 的 问题 。 许 多 的 机 器 学 习 方法 都 从 调整 中 获 益 ， 即 优化 以 适用 
于 解决 手边 的 问题 。 希 望 用 于 调整 的 数据 是 完全 独立 于 用 于 训练 和 测试 的 数据 ( 否则， 其 
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结果 是 不 可 靠 的 ) 。 但 是 ， 以 下 这 种 情况 也 是 很 自然 的 : 某 个 特定 方法 的 专家 ， 可 能 是 发 
明 这 种 方法 的 人 ， 比 其 他 人 可 以 挖掘 出 更 多 的 性 能 。 如 果 他 们 试图 出 版 其 作品 ， 当 然 也 是 
想 站 在 最 好 的 出 发 点 介绍 新 的 方法 。 他 们 在 挖掘 超出 现 有 的 好 性 能 方面 可 能 不 会 那么 有 经 
验 或 者 那么 努力 。 新 的 方法 看 起 来 总 是 好 于 旧 的 方法 ， 并且， 与 简单 的 方法 相 比 ， 越 复杂 
的 方法 越 不 容易 被 批判 。 

结果 表明 ， 在 实验 室 中 性 能 小 的 提高 ， 尽 管 是 真实 的 提高 ， 在 将 机 器 学 习 用 于 实际 的 
数据 挖掘 问题 时 ， 也 会 被 其 他 因素 掩盖 。 在 一 个 实际 数据 集 上 做 一 些 有 价值 的 事 ， 就 需要 
把 整个 问题 环境 考虑 进去 。 


9.2 从 大 型 的 数据 集 里 学 习 


当今 工商 企业 和 科研 机 构 中 盛行 使 用 大 型 数据 库 ， 使 得 机 器 学 习 算 法 必须 能 在 大 型 数 
据 集 上 工作 。 任 何 算法 要 应 用 到 非常 大 的 数据 集 ， 存 在 两 个 关键 问题 ， 空间 和 时 间 。 

假设 数据 过 大 ， 无 法 存储 在 主 存 中 。 如 果 学 习 方 案 采 用 增 量 模式 ， 那 么 在 产生 一 个 模 
型 时 ， 每 次 只 处 理 一 个 实例 ， 就 不 会 造成 困难 。 可 以 从 输入 文件 中 读 取 一 个 实例 ， 更 新 模 
型 ， 然 后 继续 读 下 一 个 实例 ， 以 此 类 推 ， 在 主 存 中 永远 无 需 存 储 一 个 以 上 的 实例 。 这 就 是 
将 在 下 一 节 讨 论 的 “数据 流 学 习 ”。 其 他 方法 ， 如 基本 的 基于 实例 的 方案 和 局 部 加 权 回 归 ， 
在 训练 时 需要 使 用 所 有 的 实例 。 如 果 那 样 ， 就 要 利用 复杂 的 存储 和 索引 机 制 ， 只 将 数据 集 
中 使 用 最 频繁 的 部 分 保存 在 主 存 中 ， 并 且 能 对 文件 中 的 相关 实例 进行 快速 访问 。 

在 大 型 数据 集 里 应 用 学 习 算法 的 另 一 个 关键 方面 是 时 间 。 如 果 学 习 时 间 不 是 与 训练 
实例 的 数量 成 线性 〈 或 者 几乎 成 线性 ) 关系 ,那么 处 理 非 常 大 的 数据 集 最 终 将 是 不 可 
能 的 。 在 某 些 应 用 中 ， 属 性 数量 是 一 个 关键 因素 ， 只 有 那些 与 属性 数量 成 线性 关系 的 方 
法 才能 被 接受 。 或 者 ， 预 测 时 间 也 可 能 成 为 关键 问题 。 幸 运 的 是 ,许多 学 习 算 法 在 训练 
和 测试 中 的 表现 都 极其 出 色 。 例 如 ， 朴 素 贝 叶 斯 法 的 训练 时 间 与 实例 数量 和 属性 数量 都 成 
线性 关系 。 从 上 而 下 的 决策 树 归纳 法 ， 如 6. 1 节 中 所 见 ， 训 练 时 间 和 属性 的 数量 成 线性 
关系 ， 如 果树 是 均匀 稠密 的 ， 则 训练 时 间 与 实例 数量 成 对 数 线性 关系 〈 假 如 没有 使 用 子 
树 提升 ) 。 

当 数 据 集 过 大 ， 以 致 某 一 种 具体 算法 无 法 应 用 时 ， 有 三 种 办 法 可 以 使 学 习 变 得 可 能 。 
第 一 种 不 太 重 要 ， 即 不 把 学 习 方 案 运 用 到 整个 数据 集中 ， 而 是 仅 在 一 个 较 小 的 子 集中 训 
练 。 当 然 ， 这 样 采 用 二 次 抽样 会 造成 信息 损失 。 不 过 ， 此 种 损失 或 许可 以 忽略 不 计 ， 因 为 
在 覆盖 到 所 有 的 训练 数据 之 前 ， 所 学 模型 的 预测 能 力 往往 早已 达到 了 最 高 点 。 如 果 是 这 种 
情形 ， 通 过 在 一 个 旁 置 测试 集 上 观察 测试 由 不 同 大 小 的 训练 集 上 所 获 模型 的 性 能 ， 可 以 很 
容易 得 到 证 实 。 

这 种 行为 模式 ， 称 为 收益 递减 法 则 (law of diminishing returns) ， 之 所 以 发 生 可 能 是 由 
于 学 习 问 题 简单 ， 因 此 少量 的 训练 数据 足以 学 到 一 个 精确 的 模型 。 另 一 种 可 能 是 学 习 算 法 
也 许 无 法 抓 住 底层 领域 的 详细 结构 。 在 一 个 复杂 领域 中 运用 朴素 贝 叶 斯 法 时 ， 往 往 可 以 观 
察 到 这 样 的 情形 : 额外 的 训练 数据 或 许 不 能 改善 模型 的 性 能 ;-- 却 能 使 决策 树 模型 的 正确 率 
继续 上 升 。 在 这 种 情况 下 ， 如 果 主 要 目标 是 预测 的 性 能 ， 当 然 应 该 替换 为 更 加 复杂 的 学 习 
算法 。 但 要 注意 过 度 拟 合 ! 不 要 在 训练 数据 上 进行 性 能 的 评估 。 

并 行 化 是 另 一 种 减少 学 习 时 间 复 杂 度 的 方法 。 想 法 是 将 问题 分 裂 成 几 个 小 部 分 ， 每 个 
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部 分 用 一 个 单独 的 处 理 器 来 解决 ， 然 后 将 结果 合并 。 为 达 此 目的 ， 需 要 建立 一 个 并 行 化 的 
学 习 算法 。 有 些 算 法 天 然 地 适用 于 并 行 化 方法 。 例 如 ， 最 近邻 方法 ， 可 以 通过 将 数据 分 裂 
成 几 个 部 分 ， 让 每 个 处 理 器 在 它 那 部 分 的 训练 集中 找到 最 近 的 邻居 ， 从 而 轻易 地 在 几 个 处 
理 器 间 进 行 分 配 。 决 策 树 学 习 器 可 以 通过 让 每 个 处 理 器 建立 完整 树 的 一 个 子 树 而 进行 并 行 
化 。 装 袋 和 堆栈 (虽然 提升 法 不 是 ) 是 天 然 的 并 行 算法 。 然 而 ， 并 行 化 只 能 做 部 分 补救 
因为 处 理 器 的 数量 是 固定 的 ， 无 法 改善 算法 的 渐 近 时 间 复 杂 度 。 

在 大 型 数据 集 上 应 用 任何 算法 的 一 种 简单 方法 是 将 数据 分 裂 成 有 限 大 小 的 数据 块 ， 在 
每 个 数据 块 上 学 习 模型 ， 再 利用 投票 或 取 平 均值 的 方法 将 结果 组 合 起 来 。 无 论 是 并 行 的 、 
类 似 装 袋 的 方法 ， 还 是 有 序 的 、 类 似 提升 的 方法 都 可 以 用 于 此 目的 。 提 升 法 具有 的 优势 
是 ， 可 以 根据 先前 数据 块 上 学 习 所 获 的 分 类 器 来 对 新 的 数据 块 进行 加 权 ， 从 而 在 各 个 数据 
块 之 间 传 递 知识 。 在 这 两 种 情况 下 ， 内 存 消耗 按照 数据 集 的 大 小 成 线性 增长 ， 因 此 对 于 非 
常 大 的 数据 集 来 说 ， 进行 某 种 形式 的 前 枝 是 必要 的 。 这 可 以 通过 将 一 些 验 证 数据 放置 一 

边 ， 只 往 分 类 器 委员 会 中 添加 能 使 委员 会 在 验证 集 上 的 性 能 获得 提高 的 新 模型 。 验 证 集 也 
可 用 于 确定 合适 的 数据 块 尺寸 ， 这 可 采用 几 种 不 同 大 小 的 数据 块 ， 并 行 地 运行 算法 ， 并 且 
关注 它们 在 验证 集 上 的 性 能 来 进行 。 

要 使 学 习 方案 能 够 处 理 非常 大 的 数据 集 ， 最 好 的 但 同时 也 最 具有 挑战 性 的 方法 是 建立 
计算 复杂 度 较 低 的 新 算法 。 在 有 些 情况 下 ， 要 获得 低 复 杂 度 的 算法 是 不 可 能 的 。 处 理 数值 
属性 的 决策 树 学 习 器 就 属于 这 类 情况 。 它 们 的 渐 近 时 间 复 杂 度 由 数值 属性 值 的 排序 过 程 主 
导 ， 对 于 任何 给 定 的 数据 集 ， 至 少 要 进行 一 次 这 样 的 数据 处 理 过 程 。 然 而 ， 有 时 可 以 利用 
随机 算法 获得 接近 正确 的 解决 方法 ， 而 所 需 的 时 间 消 耗 却 少 得 多 。 

背景 知识 可 以 大 大 减少 学 习 算 法 必需 处 理 的 数据 量 。 将 背景 知识 纳入 考虑 范畴 之 后 ， 
大 型 数据 集 的 绝 大 多 数 属性 可 能 就 显得 不 相关 了 ， 这 取决 于 哪个 属性 是 类 属性 。 通 常 ， 将 
要 交 给 学 习 方案 的 数据 预先 进行 一 番 仔 细 处 理 是 值得 的 ， 并 且 将 手头 已 有 的 任何 关于 学 习 
问题 的 信息 加 以 最 大 的 利用 。 如 果 背 景 知识 不 充足 ， 利 用 在 7. 1 节 中 讨论 的 属性 过 滤 算 法 
常常 可 以 大 大 减少 数据 量 ， 也 许 是 以 预测 性 能 的 稍 许 损失 为 代价 。 其 中 有 些 方法 (如 用 决 
策 树 或 1R 学 习 方 案 进 行 属性 选择 ) 与 属性 的 数量 成 线性 关系 。 

想 给 读者 感觉 一 下 在 普通 的 计算 机 上 直接 应 用 机 器 学 习 算 法 所 能 处 理 的 数据 总 量 ， 将 
Waka 中 决策 树 学 习 器 ]4. 8 运行 在 一 个 拥有 4. 9M 个 实例 的 数据 集 上 ， 它 有 40 个 属性 〈 几 
乎 都 是 数值 型 的 ) 以 及 一 个 含 25 个 值 的 类 ?。 我 们 使 用 一 台 合 适 的 现代 Linux 机 器 在 有 
6Gb 堆 空间 〈 一 半 的 空间 用 于 加 载 数 据 ) 的 服务 器 模式 上 运行 Sun 公司 64 位 Java 虚拟 机 
(Javal. 6) 。 最 后 这 棵 决策 树 含 有 1388 个 结 点 ， 耗 时 2 小 时 〈 一 种 对 属性 预 排序 ， 并 使 用 
减少 误差 前 枝 的 方法 仅仅 耗 时 30 分 钟 ) 。 一 般 来 说 ，Java 会 稍 慢 于 等 效 的 C/C +4 代码 ， 
但 是 没有 慢 到 2 fi. 

现今 ， 有 的 数据 集 绝 对 称 的 上 大 型 (massive) 这 个 形容 词 。 比 如 ， 天 体 物 理 、 核 物 
理 、 土 壤 学 以 及 微生物 学 方面 的 科学 数据 集 往往 达到 太 字 节 (TB). 级 别 。 包 含 金 融 交 易 
记录 的 数据 集 同样 如 此 。 将 机 器 学 习 的 标准 程序 完整 地 应 用 到 这 类 数据 集中 是 一 个 非常 具 
有 挑战 性 的 课题 。 





© 本 书 使 用 的 是 1999 KDD Cup 数据 ，http :和 kdd.ics.uci.edu/databases/kddcup99/kddcup99.html. (也 可 参见 ht- 
tp://iscx.ca/NSL-KDD. ) 
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9.3 数据 流 学 习 


一 种 处 理 大 型 数据 集 的 方式 是 开发 一 种 将 输入 视 为 连续 数据 流 的 学 习 算 法 。 这 种 新 的 
数据 流 挖掘 范式 是 最 近 十 几 年 发 展 起 来 的 ， 其 中 的 算法 是 专 为 很 自然 地 处 理 比 主 存 大 许多 
的 数据 集 ， 甚 至 是 无 穷 大 的 数据 集 开 发 的 。 其 核心 假设 是 每 一 个 实例 可 以 检查 一 次 〈 或 最 
多 一 次 ) ， 然 后 必须 被 丢弃 为 后 续 实 例 腾 出 空间 。 学 习 算 法 无 法 控制 处 理 实例 的 顺序 ， 同 
时 每 来 一 个 实例 必须 增 量 地 更 新 其 模型 。 大 多 数 的 模型 也 满足 “任何 时 候 ” 属 性 ， 即 它们 
已 经 准备 好 在 学 习 过 程 的 任何 一 点 处 被 应 用 。 这 些 算法 非常 适合 于 从 数据 流 中 进行 实时 学 
习 ， 随 着 输入 流 的 变化 修改 模型 ， 并 做 出 实时 预测 。 这 些 算法 通常 应 用 于 对 物理 传感器 产 
生 的 数据 进行 在 线 学 习 。 

对 于 这 样 的 应 用 ， 算 法 必须 在 有 限 数 量 的 内 存 上 无 限期 地 运行 。 尽 管 有 规定 ， 只 要 实 
例 已 经 处 理 就 将 其 丢弃 ， 但 仍然 有 必要 存储 部 分 实例 的 部 分 信息 ; 否则 ， 这 个 模型 就 是 静 
态 的 。 随 着 时 间 的 推移 ， 模 型 会 不 可 避免 地 增长 。 但 是 ， 不 能 任 由 其 无 约束 地 增长 。 当 处 
理 大 数据 时 ， 内 存 很 快 会 被 耗 尽 ， 除 非 对 其 使 用 的 各 个 方面 都 加 以 限制 。 从 空间 转向 时 
间 ， 为 了 使 算法 应 用 于 实时 应 用 ， 就 必须 比 实例 到 达 的 速度 更 快 地 处 理 实例 ， 在 一 个 确定 
的 、 不 变 的、 最 好 是 小 的 时 间 限 制 内 处 理 每 一 个 实例 。 这 不 允许 对 一 个 树 模 型 进行 偶尔 复 
WEHA, ， 除 非 时 间 消 耗 可 以 被 多 个 实例 摊 销 ， 而 这 会 引入 更 深层 的 复杂 性 。 

朴素 贝 叶 斯 是 一 个 罕见 的 、 不 需要 调整 就 能 处 理 数 据 流 的 算法 。 训 练 是 增 量 的 : 它 仅 
仅 涉 及 更 新 一 组 固定 的 数值 参数 集 。 内 存 使 用 量 也 很 小 ， 因 为 没有 结构 需要 添加 到 模型 
中 。 包 括 LR 和 基本 的 感知 机 在 内 的 其 他 分 类 器 也 有 同样 的 特征 。 多 层 神 经 网 络 通常 也 有 
一 个 固定 的 结构 ， 正 如 在 6.4 节 所 看 到 的 那样 ， 随 机 反 向 传播 算法 在 每 一 个 训练 实例 被 处 
理 之 后 增 量 地 更 新 权 值 ， 而 不 是 批量 操作 ， 因 此 也 适用 于 在 线 学 习 。 包 含 例 外 的 规则 通过 
将 异常 表达 为 现 有 的 规则 而 不 是 重新 设计 整个 规则 集 来 增 量 地 修改 规则 模型 ， 因 此 可 以 使 
其 适用 于 数据 流 学 习 ， 但 是 需要 注意 确保 随 着 异常 的 增加 ， 内 存 使 用 量 不 能 无 限 地 增加 。 
基于 实例 的 方法 以 及 其 相关 的 方法 ， 如 局 部 加 权 回 归 ， 同 样 是 增 量 的 算法 ， 但 是 通常 不 能 
工作 在 一 个 固定 的 内 存 范 围 内 。 

为 了 表达 一 个 标准 算法 如 何 被 调整 以 便 用 于 流 处 理 的 特点 ， 本 书 将 考察 决策 树 ， 它 有 在 
一 个 可 以 解释 的 形式 下 进化 结构 的 优势 。 增 量 归纳 决策 树 的 早期 工作 是 想 办 法 创建 一 棵 树 ， 
当 收集 到 足够 多 的 证 据 认 为 另 一 版 本 更 好 时 允许 重 构 这 棵 树 。 然 而 ， 这 需要 保留 大 量 的 信息 
来 支持 重 构 操 作 ， 在 某 些 情况 下 需要 整个 训练 数据 。 此 外 ， 重 构 操作 往往 是 很 慢 的 ， 有 时 比 
从 零 开 始 创 建 整 棵 树 更 慢 。 尽 管 很 有 趣 ， 但 是 这 些 方 法 不 支持 无 限期 地 实时 处 理 数据 流 。 

它们 的 问题 是 都 采用 了 尽 可 能 多 的 从 可 用 实例 获得 信息 的 普通 范式 。 对 于 数据 流 来 
说 ， 就 不 一 定 合 适 ， 丢 弃 实 例 的 部 分 信息 是 完全 可 以 接受 的 ， 因 为 如 果 信 息 是 重要 的 ， 它 
总 会 重复 出 现 。“Hoefftding 树 ” 的 新 范式 在 2000 年 提出 ， 只 要 数据 是 静态 的 并 且 实 例 的 数 
量 足 够 大 ， 用 此 树 所 构建 的 模型 被 证 明 与 标准 决策 树 是 等 价 的 。 

Hoeffding 树 是 基于 称 为 Hoeffding 边界 ( Hoeffding bound) 的 简单 想法 。 从 直观 意义 上 
看 ， 给 定 足 够 多 的 独立 观察 ， 超 过 特定 量 之 后 ， 随 机 变量 的 真实 均值 和 估计 均值 的 差 值 不 
会 超过 某 一 定 值 。 实 际 上 ，Hoeffding 边界 表明 ， 概 率 为 1 -5， 值 域 为 R 的 一 个 随机 变量 
在 次 观测 之 后 ， 其 真实 均值 和 估计 均值 的 差 值 ， 不 会 超过 以 下 边界 ， 
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这 个 边界 忽略 了 该 值 的 概率 分 布 。 一 般 来 讲 ， 它 比分 布 - 依赖 的 边界 更 保守 。 尽 管 对 于 特 
定 的 分 布 有 更 严格 的 边界 ， 但 实践 证 明 Hoeffding 公式 仍然 工作 得 很 好 。 

在 决策 树 归 纳 中 ， 基 本 问题 是 在 每 个 阶段 选择 一 个 属性 来 进行 分 支 。 要 使 用 Hoeffding 
边界 ， 首 先 要 设 定 一 个 较 小 的 8( 如 10 ) ， 这 表示 选择 的 属性 为 不 正确 的 概率 。 将 被 估计 
的 随机 变量 是 两 个 最 好 属性 之 间 信 息 增益 的 差异 ，R 是 可 能 的 类 标 数量 的 底 为 2 的 对 数 。 
例如 ， 如 果 被 估计 的 最 好 的 两 个 属性 之 间 的 增益 差 达到 0.3， 前 面 所 述 公式 的 值 为 。 = 
0. 1， 那 么 这 个 边界 确保 在 很 大 的 概率 上 实际 的 增益 差 超过 0. 2， 这 就 代表 着 为 最 好 的 属性 
做 正面 的 分 隔 。 因 此 可 以 安全 地 分 裂 。 

如 果 最 好 的 两 个 属性 之 间 的 信息 增益 的 差 值 低 于 a， 此 时 的 分 裂 就 是 不 安全 的 。 然 
m, e 随 着 ”的 持续 增加 会 减少 ， 因 此 这 是 一 个 等 待 更 多 被 访问 例子 的 简单 问题 ， 虽 然 这 
样 会 改变 谁 是 两 个 最 好 属性 的 估计 ， 以 及 它们 之 间 相 距 多 远 的 程度 。 

这 种 简单 的 测试 是 Hoeffding 树 的 核心 准则 : 要 确定 在 概率 为 1 -6 的 条 件 下 ， 一 个 特 
定 的 属性 获得 了 比 其 他 所 有 属性 都 大 的 信息 增益 。 换 言 之 ， 此 属性 与 它 最 近 的 竞争 者 之 间 
WB e。 边 界 值 随 着 所 见 实例 的 增多 会 迅速 递减 一 例如 ， 对 于 一 个 二 分 类 问题 (R 
-1), 8-107, fESS—14tt 1000 个 实例 之 后 ，e 就 下 降 到 低 于 0.1， 第 一 批 100 000 实例 之 
后 会 下 降 到 0. 01。 一 个 可 能 的 目标 是 随 着 叶子 结 点 数量 的 无 限 增加 ， 虽 然 每 一 个 的 错误 概 
率 低 于 6， 但 其 做 出 错误 决策 的 概率 会 不 断 地 增加 。 这 是 真实 的 ， 除 此 之 外 在 有 限 的 内 存 
上 工作 ， 叶 子 结 点 的 数量 不 会 无 限制 地 增长 。 给 定 树 的 最 大 规模 ， 保 持 整 体 的 错误 概率 在 
一 个 给 定 的 范围 内 ， 仅 仅 是 为 5 选择 一 个 合适 值 的 问题 。 除 了 信息 增益 之 外 ， 这 个 基本 准 
则 也 可 以 用 来 做 其 他 度量 ， 并 可 用 于 除了 决策 树 之 外 的 学 习 算法 。 

还 有 许多 其 他 问题 。 在 最 好 的 两 个 属性 表现 出 非常 相似 的 信息 增益 的 情况 下 ， 一 个 打 
破 这 种 僵局 的 策略 是 允许 决策 树 进一步 生长 。 实 际 上 ， 两 个 相同 属性 的 存在 会 从 根本 上 阻 
止 决 策 树 的 生长 。 为 阻止 这 种 情况 发 生 ， 无 论 什 么 时 候 Hoeffding 边界 下 降 到 低 于 预先 设 
定 的 打破 僵局 的 参数 ， 或 者 无 论 与 下 一 个 最 佳 选择 联系 多 紧密 ， 结 点 都 应 该 分 裂 。 为 了 提 
高 效率 ， 在 上 个 新 实例 到 达 之 后 仅 有 一 个 混合 类 到 达 这 个 叶子 结 点 时 ， 可 以 为 每 个 叶子 结 
点 定期 执行 Hoeffding Wit; 否则， 不 需要 分 裂 。 预 剪 枝 是 另 一 种 简单 的 可 行 方案 。 算 法 
可 以 通过 评估 根本 不 分 裂 的 优势 与 之 〈 预 剪 枝 ) 相 结合 ， 也 就 是 说 ， 只 在 当 这 个 结 点 的 最 
好 属性 的 信息 增益 超过 0 时 才 执行 分 裂 。 与 批 处 理学 习 环 境 下 预 剪 枝 不同 的 是 ， 这 不 是 一 
个 永久 的 决策 : 只 是 阻止 结 点 分 裂 直 到 发 现 分 裂 是 有 用 的 。 

现在 考虑 内 存 使 用 量 。 必 须 存储 在 叶子 结 点 的 信息 是 为 每 一 个 属性 值 简单 地 统计 每 一 
个 类 标 到 达 此 叶子 结 点 的 次 数 。 这 对 数值 属性 来 说 就 会 存在 问题 ， 需 要 单独 处 理 。 无 监督 
的 离散 化 是 很 简单 的 ， 但 是 有 监督 的 预 离散 是 不 可 行 的 ， 因 为 这 与 基于 流 的 处 理 不 一 致 。 
高 斯 近似 在 每 个 类 基础 上 可 以 用 于 数值 属性 ， 使 用 简单 的 增 量 更 新 算法 对 均值 和 方差 进行 
更 新 。 为 阻止 内 存 需 求 无 限制 地 增长 ， 必 须 设 计 一 种 策略 来 限制 树 中 结 点 的 总 数 。 这 可 以 
通过 停 用 部 分 叶子 结 点 做 到 ， 即 那些 在 决策 树 进一步 生长 时 没有 希望 获得 准确 率 增益 的 叶 
子 结 点 会 被 停 用 。 洪 在 的 增益 会 被 叶子 结 点 可 能 出 现 错 的 预期 数量 限制 ， 因 此 显然 这 也 是 
衡量 其 期 望 (获得 准确 率 增益 ) 的 候选 方式 。 可 以 定期 地 将 叶子 结 点 根据 其 期 望 从 大 到 小 
地 排序 并 暂停 相关 叶子 结 点 。 更 进一步 节省 空间 的 一 个 可 能 方法 是 放弃 那些 看 起 来 较 差 预 
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测 性 能 的 属性 ， 并 从 模型 中 丢弃 它们 的 统计 数据 。 

虽然 本 节 关 注 用 于 分 类 的 决策 树 ， 但 研究 人 员 已 经 研究 了 所 有 经 典 数据 挖掘 问题 的 基 
于 流 的 版 本 : 回归 、 聚 类 、 集 成 学 习 、 关 联 规则 等 。 一 个 用 于 大 型 在 线 分 析 的 称 为 Moa 的 
开源 系统 ， 与 Weka 紧密 相关 ， 包含 了 一 系列 的 在 线 学 习 算法 以 及 评估 工具 ?。 


9.4 融合 领域 知识 


本 书 自始至终 强调 在 进行 实际 数据 挖掘 工作 时 ， 了 解数 据 是 十 分 重要 的 。 专 业 领 域 的 
知识 对 于 (挖掘 ) 成 功 是 绝对 必要 的 。 数 据 的 数据 常 称 为 元 数据 (metadata) ， 机 器 学 习 
的 一 个 前 沿 就 是 改进 学 习 方 案 ， 使 学 习 方 案 能 将 元 数据 以 有 用 的 方式 纳 和 人 考虑 范围 。 

无 须 寻 砚 如 何 运 用 元 数据 的 实例 。 在 第 2 章 中 ， 我 们 将 属性 分 为 名 目 属性 和 数值 属性 
两 大 类 。 我 们 也 注意 到 或 许 有 更 好 的 分 类 定义 。 假 如 属性 为 数值 的 ， 则 意味 着 隐 含 着 某 种 
排序 序列 ， 但 0 点 的 存在 时 有 时 无 〈 对 于 时 间 区 间 存 在 ， 对 于 日 期 则 不 存在 ) 。 序 列 还 可 
能 是 非 标准 的 ， 角 度 的 序列 不 同 于 通常 的 整数 序列 ， 因 为 360°* 和 0° 是 一 样 的 ，180° 
与 -180" 是 一 样 的 ， 甚 至 与 900" 也 是 一 样 的 。 离 散 化 方案 假设 普通 的 线性 排序 序列 ， 作 为 
学 习 方案 ， 它 适合 数值 属性 ， 但 是 在 将 其 扩展 到 循环 序列 时 ， 线 性 序列 就 会 存在 问题 。 分 
类 数据 也 可 以 被 排序 。 设 想 一 下 如 果 字 母 表 中 的 字母 没有 传统 的 排序 ， 我 们 的 生活 中 会 遇 
到 多 少 的 困难 。( 在 香港 的 电话 目录 里 查找 一 个 电话 号 码 清单 表现 出 一 个 有 趣 而 又 重要 的 
问题 !) 日 常 的 生活 节奏 也 反映 出 循环 的 序列 : 每 星期 的 天 数 、 每 年 的 月 份 数 。 进 一 步 使 
问题 复杂 化 会 有 许多 其 他 类 型 的 序列 ， 壁 如 在 子 集 上 的 局 部 排序 . FHA 可 能 包括 子 集 
B， 或 者 子 集 B ARTE A, 或 者 谁 也 不 包括 谁 。 扩 展 普 通 的 学 习 方 案 ， 将 此 类 信息 以 令 
人 满意 的 通用 方式 来 考虑 ， 还 有 待 进一步 研究 。 

元 数据 经 常 包含 属性 之 间 的 关系 。 显 然 ， 有 三 种 关系 : 语义 关系 、 因 果 关 系 和 函数 关 
系 。 两 个 属性 之 间 的 语义 (semantic) 关系 意味 着 ， 如 果 第 一 个 属性 包括 在 某 一 条 规则 中 ， 
那么 第 二 个 属性 也 应 该 包括 在 其 中 。 既 然 这 样 ， 将 其 作为 一 个 前 提 ， 就 是 这 两 个 属性 只 有 
在 一 起 才 有 意义 。 例 如 ， 在 我 们 分 析 过 的 农业 数据 中 ， 称 为 产 奶 量 (milk production) 的 
属性 度量 一 头 奶牛 产 多 少 牛 奶 ， 调 查 的 目的 意味 着 这 个 属性 与 其 他 三 个 属性 存在 语义 关 
KR: 奶牛 标识 符 (cow-identifier) 、 牛 群 标识 符 (herd-identifier) 和 牧场 主 标识 符 (farmer- 
identifier) 。 换 句 话 说 ， 产 奶 量 的 具体 值 只 有 在 综合 考虑 这 些 情况 的 前 提 下 才能 被 理解 ， 这 
包括 产 奶 的 那 头 奶牛 ， 那 头 奶 牛 进一步 联系 到 某 个 已 知 牧场 主 所 拥有 的 特定 牛 群 。 语 义 关 
系 当然 取决 于 具体 问题 ， 它 们 不 仅 取 决 于 数据 集 ， 而 且 也 取决 于 你 要 用 数据 集 去 干什么 。 

当 一 个 属性 引发 另 一 个 属性 时 ， 因 果 (causal) 关系 就 产生 了 。 在 一 个 试图 预测 某 个 
属性 的 系统 中 ， 这 个 属性 是 由 另 一 个 属性 引起 的 ， 我 们 知道 这 另 一 个 属性 必须 包括 进来 预 
测 才 有 意义 。 例 如 ， 上 面 所 述 的 农业 数据 中 存在 着 一 条 从 牧场 主 标识 、 牛 群 标 识 到 奶牛 标 
识 的 链条 ， 这 根 链条 继续 从 那些 经 过 度量 的 属性 延伸 ， 如 产 奶 量 ， 一 直到 记录 了 牧场 主 是 
否 拥有 或 出 售 了 某 头 奶牛 的 那个 属性 。 学 习 到 的 规则 应 该 能 识别 这 条 链 上 的 依赖 关系 。 

函数 依赖 (functional dependencies) 关系 存在 于 许多 数据 库 中 ， 为 了 对 数据 库 中 的 关 
系 进 行规 范 化 ， 数 据 库 的 建立 者 试图 识别 它们 。 当 从 数据 中 学 习 时 ， 某 个 属性 对 另 一 个 属 





© 见 http://moa.cs.waikato.ac.nz, Moa 和 Weka 类 似 ， 像 一 只 不 会 飞 的 新 西 兰 鸟 ， 但 却 非常 大 ， 不 幸 的 是 ， 现 在 
很 少 有 人 使 用 了 。 
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性 的 函数 依赖 关系 的 重要 性 在 于 ， 假 如 后 者 在 规则 中 已 被 使 用 ， 就 没有 必要 再 考虑 前 者 
了 。 学 习 方案 经 常 重新 发 现 这 个 已 被 知晓 的 函数 依赖 关系 。 这 不 仅 产 生 无 意义 的 ， 或 者 准 
确 地 说 ， 同 义 反复 的 规则 ， 而 且 某 些 更 令 人 感 兴趣 的 模式 也 许 会 被 函数 关系 所 掩盖 。 然 
而 ， 人 们 在 自动 数据 库 设 计 上 已 经 做 了 许多 工作 来 解决 从 样本 查询 导出 函数 依赖 关系 的 问 
题 ， 所 开发 的 方法 应 该 对 于 清除 学 习 算法 所 产生 的 同 义 反复 的 规则 是 有 用 的 。 

当 使 用 我 们 已 经 遇 到 过 的 任何 学 习 算 法 来 进行 归纳 时 ， 将 这 些 元 数据 或 者 先 验 领域 知 
识 纳入 考虑 范围 ， 看 上 去 并 不 构成 任何 大 的 技术 上 的 挑战 。 唯 一 真正 的 问题 而 且 是 大 问 
题 ， 是 如 何 将 元 数据 以 一 种 概要 的 、 容 易 理解 的 方法 来 表达 ， 使 得 人 们 能 生成 这 些 元 数 
据 ， 并 被 算法 所 使 用 。 

使 用 与 机 器 学 习 方法 所 生成 的 表示 法 相同 的 方法 来 表达 元 数据 知识 是 有 吸引 力 的。 我 
们 将 重点 放 在 作为 这 项 工作 标准 的 规则 上 。 这 些 指定 元 数据 的 规则 对 应 于 该 领域 的 先 验 知 
识 。 给 出 训练 样本 ， 可 以 用 以 前 介绍 过 的 某 个 规则 归纳 方案 来 获得 额外 的 规则 。 通 过 这 种 
方法 ， 这 个 系统 也 许可 以 将 “经 验 ” (来 自 样本 ) 和 “理论 ” (来 自 领域 知识 ) 结合 起 
来 。 它 还 可 以 确认 和 修正 这 些 建立 在 实践 证 据 上 并 已 被 结合 进来 的 知识 。 简 单 地 说 ， 使 用 
者 告诉 系统 他 所 知道 的 ， 给 它 一 些 样本 ， 系 统 就 能 自己 找 出 其 余 的 ! 

为 了 有 效 灵活 地 利用 以 规则 表达 的 先 验 知识 ， 系 统 必须 能 执行 逻辑 推导 。 和 否则 ， 知 识 
必须 精确 地 以 适当 的 方式 表达 以 使 学 习 算 法 能 利用 它 ， 这 在 实际 运用 中 可 能 过 于 强求 了 。 
考虑 有 因果 关系 的 元 数据 : 如 果 属 性 4 引发 B 而 属性 B 引发 C， 那 么 我 们 希望 系统 能 演绎 
出 4 引发 C， 而 不 是 明确 地 陈述 事实 。 虽 然 在 这 个 简单 的 例子 中 明确 阐述 这 个 新 的 CA 引 
AC) 事实 不 会 有 什么 问题 ， 但 在 实际 中 ， 当 存在 大 量 元 数据 时 ， 期 望 用 户 能 表达 出 他 们 
先 验 知识 的 所 有 有 逻辑 结果 是 不 现实 的 。 

将 从 事先 确定 的 领域 知识 中 演绎 出 的 结果 以 及 从 训练 样本 上 所 获 的 归纳 结果 组 合 ， 看 
上 去 是 一 个 灵活 的 容纳 元 数据 的 方式 。 在 一 种 极端 情况 下 ， 当 样本 缺乏 〈 或 不 存在 ) 时 ， 
演绎 是 一 种 主要 (或 唯一 ) 的 产生 新 规则 的 方式 。 在 另 一 种 极端 情况 下 ， 当 样本 丰富 而 元 
数据 缺乏 (或 不 存在 ) 时 ， 本 书 叙述 的 标准 机 器 学 习 技术 就 起 作用 了 。 实 际 情况 介 于 这 两 
种 情况 之 间 。 

这 是 一 个 引 人 注 目的 现象 ， 在 3.4 节 中 提 到 的 归纳 逻辑 编程 法 ， 提 供 了 一 种 使 用 形式 
化 逻辑 语言 的 陈述 来 清楚 地 阐明 领域 知识 的 通用 方法 。 但 是 ， 目 前 的 逻辑 编程 方法 在 实际 
环境 里 存在 严重 的 缺陷 。 它 们 较为 脆弱 并 缺乏 健壮 性 ， 而 且 计 算 量 过 大 ， 几 乎 完全 不 可 能 
运用 于 任何 实际 大 小 的 数据 集中 。 也 许 这 源 自 它们 使 用 一 阶 逻 辑 的 事实 ， 也 就 是 说 ， 它 们 
人 允许 将 变量 引入 规则 中 。 我 们 所 见 过 的 机 器 学 习 方法 的 输入 和 输出 以 属性 和 常量 来 表示 ， 
使 用 命题 逻辑 而 没有 变量 ， 极 大 地 减少 了 搜索 空间 并 避免 了 循环 工作 和 终止 程序 的 困难 。 

有 人 渴望 采用 简化 的 推理 系统 来 避免 完整 逻辑 编程 中 的 脆弱 和 计算 无 法 实现 这 两 个 问 
题 。 另 一 些 人 坚信 6.7 节 中 介绍 的 贝 叶 斯 网 络 的 一 般 机 制 ， 在 贝 叶 斯 网 络 中 因果 约束 可 以 
在 该 网 络 的 最 初 结构 中 表达 出 来 ， 并 可 以 自动 假设 和 评估 隐藏 的 变量 。 概 率 逻 辑 学 习 提供 
了 一 种 处 理 现实 世界 中 复杂 性 和 不 确定 性 的 方法 ， 它 是 通过 结合 逻辑 编程 和 统计 推理 来 实 
现 的 。 允 许 表 示 不 同 种 类 的 领域 知识 的 系统 是 否 会 得 到 广泛 应 用 我 们 将 拭目以待 。 


9.5 文本 挖掘 
数据 挖掘 是 在 数据 中 寻找 模式 。 类 似 地 ， 文 本 挖掘 就 是 在 文本 中 寻找 模式 ， 它 是 一 个 分 
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析 文本 并 从 中 提取 出 有 助 于 某 个 特定 用 途 的 信息 的 过 程 。 与 本 书 里 一 直 讨 论 的 数据 相 比 ， 文 
本 是 无 结构 的 、 没 有 一 定形 态 的， 并 且 是 难以 处 理 的 。 毋 庸 置 言 ， 在 当代 西方 文化 里 ， 文 本 
是 交换 信息 最 有 效 的 媒介 。 从 中 提取 有 用 信息 的 动机 是 极 有 吸引 力 的， 即便 只 是 部 分 成 功 。 

文本 挖掘 和 数据 挖掘 表面 的 相似 掩藏 了 它们 实际 的 不 同 。 在 本 书 前 言 部 分 中 将 数据 控 
掘 定义 为 从 数据 中 将 暗藏 的 、 以 前 所 不 知道 的 、 但 却 是 潜在 有 用 的 信息 提取 出 来 。 在 文本 
挖掘 中 ， 所 要 提取 的 信息 却 是 清楚 明了 地 陈述 在 文本 中 的 。 一 点 都 没有 隐藏 ， 大 多 数 作者 
都 是 经 过 很 大 的 努力 来 确保 清楚 、 不 含糊 地 表达 他 们 自己 的 思想 。 从 人 的 思维 角度 来 看 ， 
“以 前 所 不 知道 的 ”的 含义 只 能 是 由 于 时 间 限 制 使 人 无 法 靠 他 们 自己 来 阅读 文本 。 问 题 在 
于 信息 传达 的 方式 无 法 适用 于 自动 处 理 。 文 本 挖掘 试图 将 信息 以 一 种 适合 计算 机 的 ， 或 者 
没有 时 间 阅 读 整 个 文本 的 人 群 来 消化 理解 的 形式 呈现 出 来 。 

对 数据 挖掘 和 文本 挖掘 的 一 个 共同 要 求 是 所 提取 出 的 信息 必须 是 潜在 有 用 的 。 一 方 
面 ， 这 意味 着 可 以 有 所 作为 (actionable) ， 即 有 能 力 为 某 些 自动 采取 的 行动 提供 一 个 基础 。 
从 数据 挖掘 的 角度 上 看 ， 这 个 概念 可 以 用 一 个 相对 独立 于 领域 知识 的 方式 来 表达 : 可 以 有 
所 作为 的 模式 就 是 那些 能 对 相同 来 源 的 新 数据 做 出 非 平 凡 预 测 的 模式 。 可 以 用 成 功 与 失败 
的 累计 数 来 度量 性 能 ， 可 以 应 用 统计 技术 在 相同 问题 上 比较 不 同 的 数据 挖掘 方法 等 。 然 而 ， 
在 许多 文本 挖掘 问题 上 ， 要 想 以 独立 于 手头 某 个 具体 领域 的 方式 来 为 “可 以 有 所 作为 ”做 一 
个 定义 是 极其 困难 的 。 这 使 得 要 寻找 一 个 公正 、 客 观 的 度量 成 功 度 的 方法 变 得 困难 重重 。 

正如 本 书 所 强调 的 ,“ 潜 在 有 用 ”在 实际 数据 挖掘 中 常常 有 另外 一 种 解释 : 成 功 的 关 
键 在 于 所 提取 出 的 信息 必须 是 可 以 理解 的 ， 即 可 以 帮助 诠释 数据 。 这 对 于 最 终结 果 是 用 于 
被 人 脑 理 解 而 不 是 (或 者 同时 ) 用 于 自动 操作 都 是 必需 的 。 这 条 标准 不 那么 适用 于 文本 挖 
掘 ， 因 为 与 数据 挖掘 不 同 ，( 文 本 挖掘 的 ) 输入 本 身 是 可 以 理解 的 。 有 着 可 以 理解 的 输出 
的 文本 挖掘 等 同 于 对 一 个 大 文本 的 重要 部 分 所 做 的 总 结 ， 这 也 是 (文本 挖掘 ) 本 身 的 一 个 
子 领 域 : 文本 摘要 (text summarization) 。 

我 们 已 经 遇 到 过 一 个 重要 的 文本 挖掘 问题 ， 文 档 分 类 (document classification) ， 即 每 
个 实例 代表 一 个 文档 而 实例 的 类 是 文档 的 主题 。 文 档 的 性 质 是 由 文档 中 出 现 的 词 所 决定 
的 。 每 一 个 单词 的 出 现 或 缺失 都 可 以 看 做 是 一 个 布尔 属性 ,或 者 将 单词 出 现 的 频率 纳入 考 
虑 ， 文 档 可 以 当做 一 个 词 袋 而 不 是 词 集 。 我 们 在 4. 2 节 中 过 到 了 这 种 不 同 ， 那 里 学 习 了 如 
何 扩展 朴素 贝 叶 斯 成 为 词 袋 表示 ， 从 而 产生 算法 的 多 项 式 版 本 。 

不 同 单词 的 数量 当然 是 极其 众多 的 ， 它 们 中 的 大 多 数 对 于 文档 分 类 都 不 是 很 有 用 。 这 是 
一 个 经 典 的 属性 选择 问题 。 有 些 词 ， 如 功能 词汇 ， 常 常 称 为 停 用 词 (stopwords), ， 可 被 先 验 
消除 ， 这 些 词 虽说 出 现 频繁 但 它们 的 总 数 并 不 多 。 其 他 单词 出 现 次 数 过 于 稀少 ， 似 乎 也 不 会 
对 分 类 有 用 。 奇 怪 的 是 ， 单 词 出 现 概 率 不 频繁 是 普遍 现象 ， 一 般 文档 或 语料库 中 近 一 半 的 词 
只 出 现 一 次 。 荒 雇 的 是 ， 将 停 用 词 都 去 除 后 仍然 存在 这 么 多 的 词汇 ， 因 此 有 必要 使 用 7.1 节 
中 所 述 的 方法 来 进行 更 深入 的 属性 选择 。 另 一 个 问题 是 词 袋 (或 词 集 ) 模型 忽略 了 单词 次 序 
和 上 下 文 效果 。 有 充足 的 理由 说 明 检 测 通用 词组 并 将 其 看 做 单独 个 体 来 处 理 是 有 用 的 。 

文档 分 类 是 有 监督 的 学 习 ， 类 别 是 已 知 的 ， 每 个 训练 文档 都 事先 赋予 了 类 别 。 无 监督 
的 问题 版 本 称 为 文档 聚 类 ( document clusting) 。 这 时 类 别 不 是 事先 确定 的 ， 但 找 出 的 是 同 
类 的 文档 。 文 档 聚 类 可 以 帮助 信息 检索 ， 它 在 相似 的 文档 之 间 建 立 联系 ， 一 旦 其 中 的 一 个 
文档 被 认定 与 所 查询 的 文档 相关 时 ， 相 关 的 文档 就 依次 被 检索 出 来 。 

文档 分 类 的 应 用 是 相当 多 的 。 一 个 相对 较 容 易 的 分 类 任务 ， 语 言 识 别 (language iden- 
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tification) ， 为 国际 文件 库 提 供 了 一 项 重要 的 元 数据 。 一 个 简单 而 语言 识别 效果 不 错 的 表达 
方式 是 ， 用 文档 中 出 现 的 n-grams， 或 者 n 个 连续 的 字母 序列 (常用 一 些小 的 值 ， 如 n =3) 
所 构成 的 文档 概况 来 描述 每 个 文件 。 出 现 次 数 最 为 频繁 的 300 个 字母 序列 或 称 n-grams 是 
与 这 种 语言 密切 相关 的 。 一 个 更 富 挑战 性 的 应 用 是 作者 归属 (authorship ascription) 问题 ， 
应 用 于 当 一 个 文档 的 作者 不 确定 ， 必 须 从 文本 中 来 猜测 时 。 这 里 起 作用 的 是 停 用 词 ， 而 非 
内 容 词汇 ， 因 为 停 用 词 的 分 布 取决 于 作者 而 与 主题 无 关 。 第 三 类 问题 是 从 一 个 受 控 的 可 能 
词组 的 词汇 表 里 向 文档 赋予 关键 词组 (assignment of key phrases) ， 给 定 大 量 加 了 标签 的 训 
练 文档 ， 标 签 也 源 自 词 汇 表 。 

另 一 类 常见 的 文本 挖掘 问题 是 元 数据 提取 (metadata extraction) 。 在 前 面 元 数据 称 为 
数据 的 数据 ， 在 文本 领域 里 这 个 术语 一 般 是 指 作 品 的 显著 特征 ， 如 它 的 作者 、 题 目 、 主 题 
分 类 、 主 题词 以 及 关键 词 。 元 数据 是 一 种 高 度 结构 化 的 〈 因 此 也 是 可 以 有 所 作为 的 ) 文档 
归纳 。 元 数据 这 个 概念 常常 被 扩展 ， 可 以 包含 代表 世界 上 的 事物 或 “实体 ”的 单词 或 词 
组 ， 这 就 产生 了 实体 提取 (entity extraction) 这 个 术语 。 普 通 的 文档 中 充满 了 这 类 术语 ， 
如 电话 号 码 、 传 真 号 码 、 街 道 号 码 、 电 子 邮件 地 址 、 电 子 邮 件 签名 、 文 章 概要 、 内 容 目 
录 、 索 引文 件 清单 、 表 格 、 图 形 、 标 题 、 会 议 声 明 、 网 址 等 。 此 外 ， 还 有 数不胜数 的 特定 
领域 的 实体 ， 例 如 国际 标准 书号 (ISBN), 、 股 票 代码 、 化 学 结构 式 以 及 数学 方程 等 。 这 些 
术语 当做 是 词汇 表 中 的 单独 词汇 项 ， 如 果 它 们 能 识别 出 来 ， 许 多 文档 处 理工 作 可 以 大 大 地 
改进 。 它 们 对 于 文档 搜索 、 内 部 链接 ， 以 及 在 文档 之 间 的 交叉 引用 工作 上 都 有 帮助 。 

文本 实体 是 如 何 识 别 的 呢 ? 机 械 的 学 习 方 法 ， 即 查 字 典 ， 固 然 是 一 个 办 法 ， 特 别 是 在 
手头 有 现成 的 资料 ， 如 人 名 或 组 织 清 单 、 来 自 地 名 字典 的 地 址 信息 、 缩 简写 字典 。 另 一 个 
办 法 是 利用 人 名 和 简称 的 大 写 和 标点 符号 模式 ; 称谓 (女士 Ms. ) JAE r) 以 及 贵族 
的 前 级 (von); 罕见 外 国人 名 的 语言 统计 等 。 对 于 人 工 结构 ， 如 统一 资源 定位 符 (URL) 
可 以 用 正规 统一 的 表达 式 来 满足 ; 可 以 使 用 显示 的 语法 来 识别 日 期 和 人 金钱 数量 。 即 便 是 最 
简单 的 任务 也 是 提供 了 学 习 如 何 应 付 实际 生活 中 千变万化 的 文档 的 机 会 。 举 个 例子 来 说 ， 
还 有 什么 比 查 询 表 中 的 名 字 更 为 简单 的 任务 ”但 是 利比亚 领导 人 卡 扎 菲 的 名 字 在 国会 图 书 
馆 所 收集 到 的 文档 中 居然 有 47 种 不 同 的 表达 形式 ! 

许多 篇 幅 短 小 的 文件 对 某 个 特定 的 主题 或 者 事件 进行 描述 ， 将 多 个 实体 组 合成 更 高 级 
别 的 合成 体 来 代表 文档 的 完整 内 容 。 识 别 合成 体 结构 的 任务 称 为 信息 抽取 (information ex- 
traction ) ， 这 个 合成 结构 经 常 可 以 表示 为 含有 许多 插 槽 的 模板 ， 每 个 模 里 填 有 单条 结构 信 
息 。 一旦 实体 被 识别 出 来 后 ,文本 就 被 解析 以 决定 实体 之 间 的 关系 。 典 型 的 抽取 问题 要 求 
寻找 预先 决定 的 一 组 命题 的 谓语 结构 。 这 些 通 常 是 简单 的 解析 技术 ， 如 有 限 状态 语法 就 能 
捕获 了 ， 虽 然 由 于 不 明确 的 代词 、 介 词 短语 以 及 其 他 一 些 修饰 语 可 能 使 情况 变 得 复杂 一 
些 。 机 器 学 习 技 术 已 经 用 于 信息 抽取 ， 通 过 寻找 提取 模板 槽 内 填充 内 容 的 规则 来 实现 。 这 
些 规 则 也 许 是 以 模式 - 行为 的 形式 存在 ， 模 式 表 达 了 对 填充 物 以 及 上 下 文中 词汇 的 限制 条 
件 。 这 些 限制 条 件 可 能 关系 到 词汇 本 身 、 它 们 的 词性 标签 以 及 它们 的 语义 类 别 。 

将 信息 抽取 再 深入 一 步 ， 被 提取 的 信息 可 以 在 接 下 来 的 步骤 中 用 来 学 习 规 则 ， 这 不 是 
关于 如 何 提取 信息 的 规则 ， 而 是 为 文本 本 身 的 内 容 定性 的 规则 。 这 些 规则 可 能 会 从 文本 的 
其 余部 分 中 来 预测 某 个 槽 中 的 填充 内 容 。 在 那些 严格 受 限 的 情况 中 ， 例 如 在 互联 网 上 张贴 
与 计算 机 相关 的 职位 ， 就 其 推断 出 的 规则 质量 而 言 ， 建 立 在 少量 人 工 组 建 的 训练 样本 基础 
上 的 信息 抽取 能 与 完全 由 人 工 组 建 的 数据 库 抗 衡 。 
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文本 挖掘 仍然 是 一 个 迅速 发 展 的 新 兴 技 术 ， 因 为 它 的 新 颖 性 以 及 内 在 的 困难 还 处 在 一 
种 不 稳定 的 状态 ， 也 许 和 机 器 学 习 在 20 世纪 80 年 代 中 期 的 状态 非常 类 似 。 它 究竟 涵盖 哪 
些 问 题 还 没有 达成 真正 的 共识 。 广 而 言 之 ， 所 有 自然 语言 处 理 都 处 在 文本 挖掘 的 范围 之 
内 。 由 于 文本 挖掘 任务 对 于 所 考虑 的 具体 文本 高 度 敏 感 ， 所 以 通常 很 难 提 供 一 种 普遍 适用 
的 、 有 意义 的 评估 方法 。 自 动 文本 挖掘 技术 在 能 超越 人 类 的 这 项 能 力 之 前 ， 即 使 是 不 涉及 
任何 特殊 的 领域 知识 ， 只 是 从 如 山 的 文档 堆 里 获取 信息 ， 也 还 有 一 条 漫长 的 道路 要 走 。 


9.6 Web 挖掘 


国际 互联 网 (WWW) 是 一 个 文本 的 大 型 储藏 室 。 由 于 它 包含 了 明确 的 结构 标记 ， 所 
以 几乎 全 部 与 普通 的 “简单 ”文本 不 同 。 有 些 标记 属于 内 部 结构 ， 标 明了 文档 的 组 织 结构 
或 格式 ; 其 他 则 属 外 部 结构 ， 定 义 了 文档 之 间 明 确 的 超 文 本 链接 。 这 些 信息 资源 为 Web 
文档 挖掘 提供 了 额外 的 支持 。Web 424% (Web mining) 与 文本 挖掘 类 似 ， 只 是 还 拥有 额外 
信息 所 带 来 的 优势 ， 经 常 可 以 利用 标题 目录 和 其 他 Web 上 的 信息 来 改善 结果 。 

考察 内 部 标记 。 包 含 关 联 数据 的 互联 网 资源 ， 如 电话 号 夭 或 产品 目录 等 使 用 超 文本 标 
记 语言 (HTML) 格式 命令 向 网 络 用 户 清楚 地 展示 它们 所 包含 的 信息 。 然 而 ， 要 从 这 种 资 
源 里 自动 地 将 信息 提取 出 来 是 相当 困难 的 。 为 达到 此 目的 ， 软 件 系统 使 用 称 为 包装 器 
( wrappers) 的 简单 分 析 模 块 来 分 析 网 页 的 结构 并 提取 所 需 的 信息 。 如 果 手 头 有 编写 好 的 包 
装 器， 这 就 成 了 简单 的 文本 挖掘 问题 了 ， 因 为 信息 可 以 从 固定 的 、 预 定 结构 的 网 页 中 ,使 
用 算法 提取 出 来 。 但 是 网 页 很 少 遵守 规则 。 它 们 的 结构 是 多 变 的 ,网 站 也 在 发 展 。 在 人 看 
来 并 不 显著 的 错误 会 使 自动 提取 程序 完全 错误 。 当 变化 发 生 时 ， 人 工 调 整 包装 器 是 一 件 令 
人 痛苦 的 事情 ， 需 要 既 考 虑 当前 程序 并 对 其 进行 修补 而 又 不 能 引起 其 他 地 方 遭 受 破坏 。 

现在 来 看 看 包装 器 归纳 (wrapper induction) 一 一 自动 从 实例 中 学 习 包 装 器 。 输 入 是 
一 个 网 页 的 训练 集 ， 带 有 元 组 ， 元 组 代表 从 每 个 网 页 上 提取 的 一 系列 信息 。 输 出 是 一 系列 
规则 ， 这 些 规则 通过 分 析 网 页 来 提取 元 组 。 例 如 ， 它 也 许 会 寻找 某 些 HTML 分 隔 符 〈 如 分 
BIF (<p>), MAFII («li») 或 粗 体 符 ( <b > ) ) ， 网 页 设计 者 用 它们 分 隔 关键 
信息 项 ， 并 学 习 显示 信息 的 序列 。 可 通过 对 所 有 分 隔 符 选 择 进 行 迭 代 来 完成 这 项 工作 ， 当 
遇 到 一 致 的 包装 器 就 停止 。 然 后 只 根据 最 少 的 提示 来 识别 ， 对 输入 中 无 关 文 字 和 记号 做 一 
些 防 御 。 或 者 ， 也 可 以 按照 5. 9 节 最 后 所 提 的 Epicurus (PEWS) 的 建议 来 寻找 一 个 强 
壮 的 包装 器 ， 采 纳 多 种 提示 以 备 意外 变化 。 自 动 包装 器 归纳 的 一 大 优点 是 ， 当 格式 变化 而 
引起 错误 时 ， 只 要 简单 地 将 它们 添加 到 训练 数据 中 ， 再 重新 归纳 一 个 将 其 考虑 进去 的 新 包 
装 器 就 可 以 了 。 包 装 器 归纳 减少 了 当 出 现 微小 变化 时 识别 中 存在 的 问题 ， 并 使 结构 发 生根 
本 变化 时 ， 产 生 新 的 提取 规则 集 容 易 多 了 。 

Web 中 的 一 个 问题 是 其 中 的 很 多 内 容 都 是 无 意义 的 。 为 了 去 糟 取 精 ， 谷 歌 的 开创 者 引 
入 了 称 为 PageRank 的 度量 。 它 也 被 其 他 的 搜索 引擎 以 其 他 方式 使 用 ， 同 时 也 被 用 于 许多 
其 他 Web 挖掘 应 用 。 它 试图 度量 网 页 或 网 站 的 权威 性 ， 权 成 (prestige) ， 根 据 字 典 的 定义 
是 :“ 通 过 成 功 或 影响 所 取得 的 崇高 地 位 。” 希 望 这 是 一 个 好 的 判别 权威 的 方法 ， 定 义 为 
“专家 信息 或 建议 的 公认 来 源 ”"。 回 顾 之 前 表 9-1 中 将 PageRank 算法 确认 为 是 十 大 数据 挖 
掘 算法 之 一 ， 也 是 迄今 为 止 唯一 没有 介绍 的 算法 。 也 许 将 其 视 为 数据 挖掘 算法 还 存在 疑 
虑 ,但 是 仍然 值得 在 此 阐述 。 
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关键 是 超 链接 形式 的 外 部 标记 。 在 一 个 网 络 社区 中 ， 人 们 用 链接 奖励 成 功 。 如 果 你 链 
接 到 我 的 网 页 ， 可 能 是 因为 你 发 现 它 是 有 用 的 且 “、、 _、 e 
内 容 丰 富 ， 这 就 是 一 个 成 功 的 网 页 。 如 果 有 一 群 Ea 
人 链接 到 它 ， 这 就 显示 出 了 权威 性 : 我 的 网 页 是 
成 功 的 和 有 影响 力 的 。 图 9-1 展示 了 Web 中 的 微 
小 的 一 部 分 ， 是 带 有 相互 链接 的 网 页 。 你 认为 哪 ~ 人、 H8 


一 个 网 页 是 最 具 权威 的 ? 网 页 下 有 5 个 链 和 链接， ~ I 
这 就 表示 有 5 个 人 发 现 它 是 值得 链接 的 ， 因 此 这 个 
网 页 就 有 很 大 的 机 会 比 其 他 网 页 更 有 权威 。B 次 





之 ， 有 4 MER. E 

仅仅 统计 链接 数 是 一 个 很 粗糙 的 度量 。 有 些 

Web 网 页 有 数 以 千 计 的 链 出 链接 ， 而 其 他 的 却 只 
有 一 两 个 。 罕 见 的 链接 是 更 有 识别 能 力 的 ， 应 该 图 9-1 一 个 混乱 的 “Web” 
比 其 他 的 链接 更 重视 。 如 果 你 的 网 页 有 少量 的 链 出 链接 ， 则 一 个 从 你 的 网 页 到 目标 网 页 的 
链接 则 更 有 权威 性 。 在 图 9-1 中 ， 从 网 页 A 中 发 出 了 许多 的 链接 ， 也 就 意味 着 每 条 链接 带 
有 的 权 值 较 少 ， 这 仅仅 是 因为 A 是 一 个 多 产 的 链接 者 。 以 NARA, KA DAME 的 链 
接 比 来 自 A 的 链接 可 能 更 有 价值 。 还 有 另 一 个 因素 : 来 自 权威 网 页 的 链接 更 有 价值 。 从 也 
到 的 了 链接 比 其 他 到 下 的 链接 更 有 价值 ， 因 为 B 更 具 权 威 性 。 诚 然 ， 这 个 因素 涉及 一 
个 特定 循环 ,没有 进一步 的 分 析 ， 还 不 清楚 其 是 否 有 用 。 但 是 ,确实 它 是 有 用 的 。 

以 下 是 详细 信息 。 定 义 PageRank 为 度量 某 个 网 页 权威 性 的 0 ~ 1 之 间 的 数值 。 每 一 条 
链接 到 网 页 的 链接 都 对 其 权威 性 有 贡献 。 贡 献 的 大 小 是 网 页 所 有 链 出 链接 所 平分 的 PageR- 
ank 值 。 每 一 网 页 的 PageRank 值 是 所 有 链 入 链接 贡献 之 和 。 图 9-1 中 了 的 PageRank 值 为 : 
A B8 1/5 (AA AAS 个 链 出 链接 ) 加 上 C 的 172, 

简单 的 迭代 方法 可 用 于 解决 计算 中 自然 而 然 出 现 的 循环 问题 。 开 始 时 ， 为 每 一 网 页 赋 一 
个 随机 初始 值 。 然 后 重新 计算 每 一 网 页 的 PageRank 值 ， 如 前 面 所 描述 的 ， 对 它 的 链 入 链接 
累加 求 和 。 如 果 初 始 值 是 其 PageRank 值 的 近似 值 ， 则 新 的 PageRank 值 则 是 更 好 的 近似 值 。 
继续 生成 第 三 个 近似 值 ， 第 四 个 ， 以 此 类 推 。 在 每 个 阶段 ， 都 要 为 Web 中 每 个 网 页 重新 计算 
PageRank 值 。 直 到 下 一 次 迭代 所 得 到 的 值 与 上 一 次 所 得 到 的 值 几乎 完全 一 样 时 停止 。 


受到 后 面 将 介绍 的 两 个 修改 的 限制 ， 此 和 迭代 确保 是 收敛 的 和 相当 快速 的 。 虽 然 具 体 的 


细节 是 保密 的 ， 现 在 的 搜索 引擎 可 以 找到 的 最 终 值 的 精度 在 1077 ~ 10 一 之 间 。 在 计算 细 
节 成 为 商业 机 密 之 前 ， 早 期 的 实验 报告 称 有 50 次 的 迭代 用 于 比 现在 Web 网 小 得 多 的 网 络 。 
现在 肯定 是 需要 其 数 倍 的 迭代 次 数 。 为 整个 Web 网 络 计 算 其 PageRank 值 ， 谷 歌 被 认为 需 
要 数 天 一 直 运 行程 序 ， 同 时 这 个 操作 ， 至 少 过 去 曾 是 ， 每 隔 几 周 会 被 执行 一 次 。 

在 前 述 的 计算 中 存在 两 个 问题 。 从 图 9-1 混乱 的 “Web” 中 ， 你 也 许 已 经 在 脑海 里 形 
成 了 PageRank 值 流 经 路 线 画 面 ， 通 过 链 入 链接 流入 网 页 ， 通 过 链 出 链接 流出 网 页 。 那 么 
对 于 那些 没有 链 入 链接 的 (网 页 了 ) 或 没有 链 出 链接 的 〈 网 页 G) 情况 会 是 怎样 呢 ? 

继续 使 用 这 张 图 ， 假 设 一 个 网 页 浏览 者 点 击 链 接 是 随机 的 。 他 在 当前 网 页 随机 地 选择 
一 条 链 出 链接 ， 然 后 浏览 这 条 链接 的 目标 网 页 。 如 果 有 很 多 的 链 出 链接 ， 点 击 某 一 特定 链 
接 的 概率 是 非常 小 的 ， 这 也 正 是 希望 从 PageRank 中 得 到 行为 结果 。 事 实证 明 ， 给 定 网 页 
的 PageRank 值 与 网 页 浏览 者 随机 搜索 停留 在 此 网 页 上 的 概率 成 比例 。 
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现在 没有 链 出 链接 的 网 页 中 表现 出 的 问题 变 得 更 加 明显 : 这 称 为 PageRank K Bt 
(PageRank sink) ， 因 为 浏览 者 进入 了 此 页 面 就 无 法 跳 转 出 去 。 更 一 般 地 说 ， 一 组 网 页 集 可 
能 相互 链接 而 不 是 四 处 链接 。 这 种 过 分 紧密 的 团体 也 是 PageRank 陷阱 : 浏览 者 就 像 是 被 
困 在 了 一 个 陷阱 里 。 那 么 没有 链 人 链接 的 网 页 呢 ? 随机 的 浏览 者 不 会 到 达 这 个 网 页 。 实 际 
上 ， 他 们 不 会 从 Web 中 其 他 部 分 到 达 任 何 没 有 链 入 链接 的 网 页 团体 ， 即 使 是 它们 之 间 有 
内 部 链接 以 及 链接 到 外 部 Web 的 链 出 链接 。 

这 两 个 问题 表明 上 文 提 到 的 迭代 计算 不 会 收敛 ， 尽 管 之 前 声明 它 会 收 僵 。 但 是 解决 办 法 
是 简单 的 : 称 为 超 距 跳 转 (teleportation)。 用 一 个 确定 的 小 概率 值 ， 表 示 让 浏览 者 到 达 一 个 
随机 选择 的 网 页 而 不 是 遵循 他 所 在 网 页 的 一 个 链接 。 这 同时 解决 了 两 个 问题 。 如 果 浏 览 者 被 
困 在 G 中 ， 他 们 终究 会 跳 转 出 来 。 同 样 ， 如 果 通 过 浏览 不 能 到 达 再 ， 他 们 最 终 也 会 到 达 H。 

这 个 跳 转 概率 对 迭代 算法 的 收敛 速度 和 其 结果 准确 度 都 有 很 大 的 影响 。 极 端 情况 下 ， 
如 果 这 个 值 达到 1， 这 就 意味 着 浏览 者 总 是 在 跳 转 ， 链 接 结 构 对 PageRank 就 没有 影响 ， 也 
就 没有 和 迭代 的 必要 。 如 果 为 0， 则 浏览 者 不 会 跳 转 ， 这 个 计算 也 根本 不 会 收敛 。 早 期 发 表 
的 实验 使 用 的 跳 转 概率 是 0. 15, ， 有 人 猜测 搜索 引擎 将 其 增加 了 一 点 以 加 速 收敛 。 

代替 跳 转 到 一 个 随机 选择 的 页 面 ， 也 可 以 选择 为 每 个 网 页 预先 设 定 一 个 概率 值 ， 这 样 
的 话 ， 一 旦 决定 跳 转 ， 利 用 那个 概率 还 可 决定 转向 哪个 页 面 。 这 也 不 会 影响 计算 过 程 。 但 
是 会 影响 计算 结果 。 如 果 某 一 网 页 因为 获得 了 一 个 比 其 他 网 页 更 小 的 概率 而 被 歧视 ， 它 就 
会 得 到 比 其 本 身 应 有 的 PageRank 值 更 小 的 值 。 这 就 给 搜索 引擎 运营 商 一 个 影响 计算 结果 
的 机 会 ， 一 个 他 们 可 能 用 来 排挤 某 些 网 站 的 机 会 〈 例 如， 那些 他 们 认为 正在 利用 PageR- 
ank 系统 试图 获得 不 公平 优势 的 网 站 ) 。 这 些 都 可 作为 诉讼 所 需 的 材料 。 


9.7 对 抗 情形 


机 响 学 习 的 一 个 重要 应 用 是 垃圾 邮件 的 过 滤 。 在 写作 本 书 第 2 版 时 (2005 Æ), 
邮件 是 一 个 极为 令 人 烦恼 的 问题 。 现 在 写 第 3 版 的 时 候 (2011 年 )， 尽 管 垃 圾 邮件 在 不 断 
地 增长 ， 但 这 个 问题 似乎 已 经 减少 很 多 了 〈 据 估计 垃圾 邮件 占 所 有 邮件 的 95% ) 。 这 主要 
是 因为 广泛 地 使 用 了 垃圾 邮件 过 滤 ， 通 常 使 用 的 是 学 习 技 术 。 乍 看 上 去 垃圾 邮件 过 滤 是 一 
个 标准 的 文档 分 类 问题 : 根据 它们 所 包含 的 文字 内 容 ， 在 大 量 训练 数据 的 指导 下 ， 将 文档 
分 成 “ 非 垃圾 ”和 “垃圾 ”两 大 类 型 。 但 它 不 是 一 个 标准 的 文档 分 类 问题 ， 因 为 它 有 对 抗 
性 的 一 面 。 被 分 类 的 文档 不 是 从 那个 无 法 想象 的 、 巨 大 的 、 所 有 可 能 的 文档 集中 随机 抽取 
的 ， 它 们 包含 那些 经 过 精心 包装 可 以 逃避 过 滤 程 序 、 被 特别 设计 来 击败 系统 的 电子 邮件 。 

早期 的 垃圾 过 滤器 简单 地 将 包含 诸如 暗示 性 、 钱 财 及 诈骗 的 典型 垃圾 邮件 字 的 信息 清除 
掉 。 当 然 ， 许 多 诉讼 来 往 ( 邮件 ) 涉及 性 别 、 金 钱 和 药物 ， 因 此 必须 有 所 权衡 。 所 以 过 滤器 
的 设计 者 运用 贝 叶 斯 文本 分 类 方案 ， 在 训练 过 程 中 力求 找到 一 个 适当 权衡 。 垃 圾 邮件 的 制造 
者 很 快 调整 了 策略 ， 利 用 拼写 错误 将 那些 典型 字 隐 藏 起 来 ， 用 合法 的 文本 包装 它们 ， 也 许 是 
在 白色 的 背景 下 用 白色 的 字 打 印 的， 使 得 只 有 通过 特别 的 过 滤器 才 可 以 看 到 ; 或 者 简单 地 将 
垃圾 文本 放 在 其 他 地 方 ， 放 在 图 像 或 URL 上 ， 绝 大 多 数 邮 件 阅 读 器 会 自动 下 载 它们 。 

很 难 客观 地 比较 垃圾 邮件 侦察 算法 ， 这 个 事实 使 问题 变 得 更 为 复杂 。 虽 然 训练 数据 很 
多 , 但 隐私 问题 阻碍 了 将 大 量 有 代表 性 的 邮件 公之于众 。 并 且 还 有 强烈 的 时 间 效 应 ， 垃 圾 
邮件 快速 地 改变 特性 ， 使 交叉 验证 之 类 的 敏感 统计 检验 无 效 。 最 后 , “坏人 ”也 可 以 利用 
机 器 学 习 。 例 如 ， 如 果 他 们 能 够 得 到 过 滤器 所 阻止 的 和 所 放行 的 样本 ， 就 可 以 用 这 些 作为 
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训练 数据 学 习 如 何 逃 避 过 波 。 

不 幸 的 是 ， 在 今天 的 世界 里 还 有 许多 其 他 对 抗 性 的 学 习 情 形 的 例子 。 与 垃圾 邮件 问题 
密切 相关 的 是 搜索 引擎 垃圾 : 网 站 试图 误导 互联 网 搜索 引擎 ， 将 它们 置 于 搜索 结果 清单 中 
显眼 的 位 置 上 。 排 列 在 前 的 网 页 由 于 表明 有 广告 机 会 ， 对 利润 追逐 者 具有 强烈 的 诱惑 力 ， 
从 而 能 为 网 页 的 拥有 者 创造 经 济 利益 。 还 有 就 是 计算 机 病毒 战争 ， 令 病毒 制造 者 和 杀毒 软 
件 的 设计 者 一 争 高 下 。 这 个 动机 是 一 般 的 破坏 和 拒绝 服务 ， 而 非 直接 赚钱 。 

计算 机 网 络 安全 是 一 场 没 有 止境 ， 且 愈演愈烈 的 战役 。 保 护 者 强化 网 络 、 操 作 系统 以 
及 应 用 。 而 攻击 者 在 这 三 方面 寻找 薄弱 环节 。 人 侵 检 测 系统 能 搜寻 出 不 同 寻常 的 、 可 能 是 
由 黑客 试探 行为 引起 的 活动 模式 。 攻 击 者 意识 到 这 一 点 并 且 试 图 掩盖 他 们 的 踪迹 ， 他 们 或 
许 采取 间接 工作 ， 或 许 延长 活动 时 间 ， 或 者 相反 ， 非 常 迅速 地 攻击 。 数 据 挖 据 运用 于 这 个 
问题 上 ， 试 图 去 发 现 被 入 侵 检测 系统 忽略 的 、 计 算 机 网 络 数据 中 存在 的 人 侵 者 踪迹 之 间 的 
语义 关系 。 这 是 一 个 大 规模 的 问题 : 用 来 监测 计算 机 网 络 安全 的 审核 日 志 ， 即 使 是 一 个 中 
等 规模 的 组 织 ， 每 天 的 量 也 是 要 以 10 亿 字 节 计 的 。 

许多 自动 威胁 检测 系统 都 建立 在 将 当前 的 数据 与 已 知 的 攻击 种 类 相 匹 配 上 。 美 国联 邦 
航空 管理 局 开发 了 计算 机 辅助 旅客 预 筛选 系统 (CAPPS) ， 这 套 系 统 根据 旅客 航空 记录 对 
旅客 进行 筛选 ， 并 对 那些 需要 额外 行李 检查 的 个 人 做 标记 。 例 如 ，CAPPS 将 现金 支付 归 入 
高 风险 的 一 类 ， 虽 然 明 确 的 细节 是 不 予 公布 的 。 但 是 ， 这 个 方法 只 能 发 现 已 知 的 或 者 能 预 
计 到 的 威胁 。 研 究 人 员 现 在 正在 运用 无 监督 的 方案 ， 例 如 进行 异常 和 离 群 点 检测 ， 试 图 检 
测 出 可 疑 的 行为 。 除 了 检测 潜在 威胁 以 外 ， 异 常 检测 系统 还 可 以 用 来 检测 金融 诈骗 或 者 洗 
钱 这 样 的 非法 活动 。 

数据 挖掘 现今 正 以 国家 防御 的 名 义 用 在 大 量 的 数据 中 。 各 种 不 同 种 类 的 异 构 信 息 ， 如 
金融 交易 、 健 康 医疗 记录 、 网 络 通信 等 ， 正 被 挖 据 出 来 建立 各 种 概要 文件 、 社 会 网 络 模 型 
以 及 监测 怒 怖 分 子 的 通信 联系 。 这 些 活动 引起 了 人 们 对 隐私 问题 的 极 大 关注 ， 促 进 了 保护 
隐私 的 数据 挖掘 技术 的 发 展 。 这 些 算 法 试图 辨别 存在 数据 中 的 模式 却 不 直接 访问 原始 数 
据 ， 典 型 方法 是 使 用 随机 值 使 其 失真 。 为 了 保护 隐私 ， 必 须 保 证 挖掘 过 程 所 获 信 息 不 足以 
重建 原始 数据 。 说 来 容易 ， 要 实现 可 就 难 了 。 

谈 及 轻松 的 一 面 ， 并 非 所 有 对 抗 性 的 数据 挖掘 都 是 针对 穷 凶 极 恶 的 活动 。 在 复杂 的 、 
有 了 噪声 的 实时 领域 中 ， 多 智能 体系 统 包 括 了 一 些 自治 代理 ， 它 们 不 仅 要 在 一 个 团队 中 协作 
并 且 要 与 对 手 竞争 。 如 果 你 很 难 想象 这 种 情形 ， 联 想 一 下 足球 。 机 器 人 足球 是 一 个 丰富 而 
普及 的 领域 ， 可 用 以 探究 机 器 学 习 是 如 何 应 用 在 如 此 困难 的 问题 中 。 球 员 不 仅 要 练 基本 
功 ， 而 且 还 要 学 习 怎 样 相互 配合 以 对 付 不 同类 型 的 对 手 。 

最 后 ， 机 器 学 习 已 用 来 解决 历史 文献 之 这 ， 它 揭示 了 一 个 试图 隐藏 身份 的 作者 。 如 
Koppel 和 Schler(2004) 所 述 ，Ben Ish Chai 是 19 世纪 末 巴 格 达 (Baghdad) 地 区 重要 的 希 
伯 莱 语 (rabbinic) 学 者 。 在 他 的 大 量 文献 中 有 两 个 文集 ， 包 括 大 约 500 SW APA - ME 
fit (Hebrew-Aramaic) 文字 写成 的 回答 法 律 质询 的 信件 。 已 经 知道 是 他 写 了 一 个 文集 。 
虽说 Chai 声称 在 一 个 档案 中 发 现 了 另 一 个 文集 ， 但 历史 学 家 怀疑 他 也 是 另 一 个 文集 的 作 
者 ， 只 是 故意 改变 文风 试图 掩盖 他 的 作者 身份 。 这 个 案例 给 机 器 学 习 提出 的 难题 是 没有 其 
他 的 文集 可 归属 于 这 个 神秘 作者 。 虽 然 有 一 些 已 知 的 候选 对 象 ， 但 是 这 些 信 件 是 由 其 他 任 
何 一 个 人 所 写 的 可 能 性 是 相同 的 。 一 种 称 为 揭 密 (unmasking) 的 新 技术 被 开发 出 来 了 ， 
利用 它 建立 一 种 模型 能 够 区 别 已 知 作者 的 作品 A 和 未 知 作者 的 作品 X， 和 迭代 去 除 那 些 对 于 
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辨别 二 者 最 为 有 用 的 属性 ， 随 着 越 来 越 多 的 属性 被 去 除 ， 交 叉 验 证 正确 率 不 断 下 降 ， 考 察 
这 个 正确 率 的 下 降 速 度 。 

假设 前 提 是 如 果 作 品 X 是 由 作品 A 的 那个 想 隐 藏身 份 的 作者 所 写 ， 那么 作品 X 和 A 
之 间 的 差别 与 作品 X 和 另外 一 个 不 同 作者 的 作品 B 之 间 的 差别 相 比 较 ， 差 别 会 表现 在 相对 
较 少 的 部 分 属性 上 。 换 句 话 说， 将 作品 X 与 作品 A、B 分 别 比 较 时 ， 随 着 属性 的 去 除 ， 与 
作品 A 相 比 较 时 的 正确 率 曲线 下 降 比 与 B 相 比较 时 快 得 多 。Koppel 和 Schler 得 出 的 结论 
是 ，Ben Ish Chai 确实 撰写 了 神秘 信件 ， 他 们 的 这 项 技术 是 一 个 令 人 注目 的 、 新 颖 原创 的 、 
机 器 学 习 应 用 于 对 抗 情 形 的 例子 。 


9.8 无 处 不 在 的 数据 挖掘 


本 书 的 开始 就 指出 了 数据 无 处 不 在 的 事实 。 这 些 数据 影响 着 普通 人 的 生活 ， 然 而 影响 
最 大 的 要 数 国际 互联 网 了 。 目 前 ， 在 网 上 大 约 有 100 ~200 亿 份 文档 ， 总 计 超 过 50TB， 而 
且 还 在 持续 增长 。 无 人 能 和 信息 激增 同步 。 数 据 挖掘 源 于 数据 库 所 在 的 企业 界 ， 文 本 挖掘 
使 机 器 学 习 技 术 从 公司 移 人 家 庭 。 无 论 何 时 ， 当 我 们 被 网 络 上 的 数据 淹没 时 ， 文 本 挖掘 为 
我 们 提供 工具 来 驯服 它 (数据 ) 。 应 用 是 众多 的 。 寻 找 朋 友 并 和 他 们 联系 、 维 护 金融 投资 
组 合 、 在 电子 世界 中 讨价还价 地 购物 、 用 于 任何 方面 的 数据 检测 器 ， 所 有 这 些 都 可 以 是 自 
动 完成 的 ， 不 需要 显 式 地 编程 。 文 本 挖掘 技术 已 经 用 来 预测 你 要 点 击 的 下 一 个 链接 、 为 你 
整理 文档 、 处 理 你 的 邮件 、 为 你 的 搜索 结果 排序 。 在 这 样 一 个 数据 无 处 不 在 ， 同 时 又 是 杂 
乱 无 章 的 世界 中 ， 文 本 控 气 绝对 是 我 们 所 需要 的 解决 方法 。 

许多 人 相信 互联 网 预示 着 一 个 更 为 强大 的 范式 转变 ， 称 为 普 适 计算 (ubiquitous com- 
puting) 。 随 处 可 见 小 型 的 便携 式 装 置 一 一 移动 电话 、 个 人 电子 助手 、 个 人 立体 声 录像 播放 
器 、 数 码 相 机 、 移 动 Web 访问 。 有 的 设备 已 经 综合 了 所 有 这 些 功能 。 它 们 知道 我 们 的 时 
空位 置 ， 帮 助 我 们 在 社会 空间 通信 、 组 织 个 人 计划 、 回 顾 我 们 的 过 去 并 将 我 们 包含 在 全 球 
信息 空间 里 。 在 当今 美国 的 任何 一 个 中 产 阶 级 家 庭 里 都 可 以 轻松 地 找到 许多 处 理 器 。 它 们 
互相 之 间 并 不 交流 ， 也 不 和 全 球 信息 系统 交流 ， 目 前 还 没有 。 但 它们 终 有 一 天 会 的 ， 而 这 
一 天 来 到 时 ， 数 据 挖 掘 的 潜力 就 会 爆发 出 来 。 

拿 音乐 制品 来 说 。 流 行 音乐 是 引导 技术 进步 的 先锋 。 索 尼 最 初 的 随身 听 为 今天 随处 可 
见 的 便携 式 电子 设备 铺 平 了 道路 ， 苹 果 公司 的 iPod 率先 开发 了 大 容量 的 便携 式 存储 。Nap- 
ster 的 网 络 技术 促进 了 对 等 协议 的 发 展 。 类 似 Firefly 的 推荐 系统 将 计算 引入 社交 网 络 中 。 在 
不 和 久 的 将 来 ， 能 知晓 内 容 的 音乐 服务 将 戏 人 便携 式 设备 。 数 据 挖掘 技术 在 网 络 化 的 音乐 服务 
社区 用 户 上 的 应 用 将 是 大 量 的 ， 发 现 音乐 潮流 走向 、 追 踪 偏 好 和 品位 、 分 析 收 听 习 惯 。 

普 适 计算 将 会 把 数字 空间 和 现实 世界 的 活动 紧密 地 连接 在 一 起 。 对 许多 人 来 说 ,推断 
他 们 自己 的 计算 机 经 历 总 是 存在 挫折 感 、 神 秘 的 技术 、 感 到 个 人 (能力) 不足， 乃至 出 现 
机 器 故障 ， 这 看 上 去 就 像 是 场 亚 梦 。 然 而 ， 倡 导 者 指出 情况 并 不 会 如 此 ， 如 果 是 这 样 ， 就 
不 可 行 了 。 当 今 的 幻想 家 预见 到 了 一 个 “平静 的 ”计算 机 世界 ， 在 这 个 世界 里 隐蔽 的 机 器 
在 幕后 默默 地 联合 工作 着 ， 使 人 类 的 生活 更 加 丰富 和 方便 。 它 们 处 理 的 问题 大 到 公司 财务 
和 家 庭 作 业 ， 小 到 一 些 令 人 烦恼 的 小 事 ， 如 车 钥匙 在 哪里 、 有 停车 位 吗 、 上 星期 在 Macy 
看 到 的 那 件 了 恤衫 还 在 衣架 上 吗 ? 当 没 有 电源 时 ， 时 钟 能 知道 正确 的 时 间 、 微 波 炉 能 从 因 
特 网 上 下 载 新 的 菜谱 、 儿 童 玩具 能 够 自动 更 新 获得 新 游戏 和 新 词汇 。 衣 服 标 签 能 够 跟踪 洗 
将、 咖啡 杯 通知 清洁 工 来 清洗 、 如 果 没 有 人 在 房间 里 电灯 开关 将 会 处 于 节能 模式 、 铅 笔 能 
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将 我 们 所 画 的 画 进行 数字 化 。 在 这 个 全 新 的 世界 里 ， 数 据 挖掘 在 哪里 呢 ? 到 处 都 是 。 

要 指出 现在 尚 不 存在 的 未 来 的 某 个 例子 是 困难 的 。 然 而 ， 用 户 界 面 技术 还 有 待 提 高 。 
在 直接 操作 的 计算 机 界面 上 ， 许 多 重复 性 的 任务 ， 不 能 使 用 标准 的 应 用 工具 实现 自动 化 ， 
迫使 计算 机 用 户 必须 重复 进行 相同 的 界面 操作 。 这 也 是 先前 提 到 的 挫折 感 的 一 个 代表 ， 谁 
应 对 此 负责 : 人 ， 还 是 机 器 ? 经 验 丰富 的 程序 员 会 编写 一 些 脚 本 程序 由 机 器 来 完成 这 样 的 
任务 , 但 是 随 着 操作 系统 在 复杂 层 上 的 累计 增加 ， 程 序 员 对 机 器 施加 命令 的 权力 越 来 越 
小 ,并 且 当 复杂 的 功能 是 被 符 和 设备 中 而 不 是 通用 计算 机 时 ， 这 个 权力 就 消失 了 。 

在 演示 编程 (programming by demonstration). 方面 的 研究 使 普通 的 计算 机 用 户 能 够 让 机 
器 自动 完成 任务 而 无 需 了 解 任 何 编程 知识 。 用 户 只 需 知道 执行 这 个 任务 的 常规 方法 以 便 和 
计算 机 交流 。 一 种 称 为 Familiar 的 系统 ， 能 帮助 用 户 自 动 完成 苹果 机 上 的 应 用 程序 的 重复 
任务 。 它 不 仅 能 完成 这 些 任务 而 且 还 能 执行 它 所 未 遇见 过 的 新 的 任务 。 这 是 通过 使 用 苹果 
的 脚本 语言 从 每 个 应 用 上 收集 信息 并 利用 这 些 信 息 来 做 出 预测 而 实现 的 。 代 理 机 还 能 容忍 
噪声 。 它 告知 用 户 它 所 做 的 预测 ， 并 结合 考虑 反馈 信息 。 它 具有 适应 性 : 为 个 体 用 户 学 习 
特定 的 任务 。 而 且 ， 它 对 每 个 用 户 的 风格 是 敏感 的 。 如 果 两 个 人 都 在 传授 一 个 任务 ， 正 好 
给 出 的 也 是 相同 的 示范 ，Familiar 系统 不 一 定 推断 出 相同 的 程序 ， 它 会 根据 用 户 的 习惯 进 
行 调整 ， 因 为 它 是 从 人 机 之 间 的 交互 历史 中 学 习 。 

Familiar 应 用 标准 的 机 器 学 习 技术 来 推断 用 户 的 意图 。 用 规则 来 评估 预测 ， 以 使 在 每 
个 阶段 都 能 提供 给 使 用 者 最 佳 的 预测 。 这 些 规则 是 有 条 件 的 ， 因 此 用 户 可 以 教导 分 类 任 
务 ， 如 按 文件 类 型 进行 文件 整理 ， 并 根据 文件 的 大 小 来 赋予 标签 。 它 们 增 量 地 学 习 : 代理 
机 通过 记录 人 机 之 间 的 交互 历史 来 适应 个 体 使 用 者 。 

出 现 了 许多 困难 。 一 是 数据 的 缺乏 。 用 户 厌 烦 对 一 个 任务 重复 示范 多 次 ， 他 们 认为 代 
理 机 应 该 立即 理解 他 们 正在 做 的 事 。 一 个 数据 挖掘 者 认为 含 100 个 实例 的 数据 集 是 很 小 
的 ， 而 用 户 示范 一 个 任务 多 次 便 已 恼火 。 二 是 过 多 的 属性 。 计 算 机 桌面 环境 拥有 数 以 百 计 
的 属性 ， 任 何 行动 都 可 能 依赖 这 些 属性 。 这 意味 着 小 的 数据 集 可 能 包含 了 一 些 看 似 极 具 预 
测 力 而 实际 却 无 关 的 属性 ， 还 需要 用 特别 的 统计 检验 来 比较 假设 。 三 是 这 种 迭代 的 、 不 断 
改进 的 发 展 模式 ， 这 个 特性 会 导致 数据 挖掘 应 用 失败 。 从 理论 上 看 ， 不 可 能 为 类 似 示 范 编 
程 这 样 的 交互 式 问题 来 建立 一 个 固定 的 训练 和 测试 集 ， 因 为 代理 机 的 每 次 改进 ， 会 通过 模 
仿 用 户 将 如 何 反应 来 改变 测试 数据 。 四 是 现 有 的 应 用 程序 只 能 提供 有 限制 地 访问 应 用 以 及 
用 户 数据 : 成 功 操作 所 依赖 的 原始 资料 经 常 是 被 深 埋 在 应 用 程序 内 部 ， 但 却 不 能 访问 。 

数据 挖掘 在 工作 中 已 被 广泛 运用 。 在 我 们 阅读 电子 邮件 和 网 上 冲浪 时 ， 文 本 挖掘 正 将 
本 书 中 的 技术 带 人 我 们 的 生活 中 。 将 来 ， 它 可 能 和 我 们 所 能 想象 的 不 同 。 正 在 日 益 扩 张 的 
计算 构架 将 为 学 习 提供 无 法 预知 的 机 会 。 数 据 挖 气 将 在 幕后 扮演 一 个 奠基 者 的 角色 。 


9.9 补充 读物 


Wu 等 人 (2008) 阐述 了 前 十 大 数据 挖掘 算法 的 产生 过 程 ， 以 此 介绍 了 2006 年 在 香港 
召开 的 数据 挖掘 国际 会 议 ， 随 后 出 版 了 一 本 介绍 所 有 数据 挖掘 算法 的 书 (Wu 和 Kumar, 
2009), Hand(2006) 发 表 了 关于 分 类 技术 领域 中 进步 错觉 的 文章 ， 他 同时 也 找到 了 一 种 
简单 的 分 类 方法 ， 这 种 方法 所 获得 的 分 类 精度 提高 是 当时 最 先进 方法 的 90% 以 上 。 

关于 大 型 数据 集 的 文献 极其 可 观 ， 我 们 这 里 只 能 略 举 一 二 。Fayyad 和 Smith(1995) 论 
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述 了 数据 挖掘 在 庞大 的 科学 实验 数据 中 的 应 用 。Shafer 等 人 (1996) 描述 了 一 种 并 行 版 本 
的 自 上 而 下 的 决策 树 归 纳 法 。Mehta A (1996) 为 众多 的 驻 留 磁盘 的 数据 集 开 发 了 一 种 
有 序 的 决策 树 算法 。Breiman(1999) 叙述 了 如 何 能 将 任何 算法 应 用 于 大 型 数据 集 ， 主 要 是 
通过 将 数据 集 分 裂 成 较 小 的 块 ， 对 结果 进行 装 伐 或 提升 。Frank 等 人 (2002) 解释 了 相关 
剪 枝 和 选择 方案 。 

早期 的 增 量 决策 树 工 作 是 由 Utgoff( 1989) 和 Utgoff 4x A. (1997) 开展 的 。Hoeffding 树 
是 由 Domingos 和 Hulten(2000) 提出 的 。 本 书 已 经 阐述 过 ， 包 括 对 其 的 扩展 和 改进 ， 紧 跟 
着 的 是 Kirkby 博士 的 观点 。Moa 系统 是 由 Bifet 等 人 (2010) 论述 的 。 

虽然 很 重要 ,但 有 关 将 元 数据 纳入 实际 数据 挖掘 中 的 文献 还 是 极 少 。Giraud- Carrier 
(1996) 考察 了 一 个 将 领域 知识 编码 成 命题 规则 的 方案 ， 以 及 它 在 演绎 和 归纳 上 的 应 用 。 
与 归纳 逻辑 编程 相关 的 、 通 过 一 阶 逻辑 规则 来 处 理 知识 表达 ， 则 是 由 Bergadano 和 Gunetti 
(1996) 论述 的 。 概 率 逻 辑 学 习 由 de Raedt(2008) 提出 。 

文本 挖掘 是 一 个 新 兴 领 域 ,， 因此 关于 整个 领域 的 综合 论述 还 比较 少 : Witten (2004 ) 
贡献 了 一 个 。Sebastiani(2002) 将 大 量 的 属性 选择 和 机 器 学 习 技术 运用 于 文本 分 类 上 。 
Martin( 1995) 描述 了 文档 聚 类 在 信息 检索 方面 的 运用 。Cavnar Fil Trenkle( 1994) 演示 如 何 
运用 n-gram 文档 概述 来 正确 地 确定 文档 所 使 用 的 语言 。 支 持 向 量 机 用 于 作者 归属 问题 是 
由 Diederich 等 人 (2003) 叙述 的 。Dumais A (1998) 用 相同 的 技术 在 大 量 训 练 文档 的 
基础 上 ， 从 受 控 词 汇 库 里 对 文档 赋予 关键 词汇 。Tumey(1999 ) Frank 等 人 (1999) 以 及 
Medelyan 和 Witten(2008) 都 研究 了 怎样 使 用 机 器 学 习 从 文档 文本 中 提取 关键 词汇 。 

Appelt(1996) 论述 了 许多 关于 信息 提取 的 问题 。 许 多 作者 运用 机 器 学 习 来 为 模板 的 
槽 内 填充 内 容 提 取 寻 找 规则 ， 例 如 ，Soderland 等 人 (1995) , Huffman(1996) 以 及 Freitag 
(2002), Califf 和 Mooney(1999) 以 及 Nahm 和 Mooney(2000) 都 探索 了 从 张贴 在 互联 网 新 
闻 上 的 招工 广告 中 提取 信息 的 问题 。Witten 等 (1999a) 报告 了 一 种 基于 压缩 技术 、 在 连 
续 的 文本 上 寻找 信息 的 方法 。Mann(1993) 从 美国 国会 图 书馆 所 收 到 的 文档 中 发 现 了 利 比 
亚 领 导 人 卡 扎 菲 名 字 的 多 种 表达 形式 。 

Chakrabarti(2003) 写 了 一 本 优秀 的 、 综 合 性 的 、 关 于 Web 挖掘 技术 的 书籍 。Kushmerick 等 
A (1997) 发 展 了 包装 器 归纳 技术 。 谷 歌 创 始 人 撰写 的 早期 文章 介绍 了 PageRank 算法 (Brin 
和 Page，1998)。 在 同一 时 间 ，Kleinberg (1998) 论述 了 一 个 称 为 HITS ( Hypertext- Induced 
Topic Selection) 的 系统 ， 它 表面 上 和 PageRank 有 相似 之 处 ， 但 却 产 生 截 然 不 同 的 结果 。 

第 一 篇 关于 垃圾 邮件 过 滤 的 论文 是 由 Sahami A (1998) 写 的 。 我 们 关于 计算 机 网 
络 安全 的 材料 是 源 于 Yurcik 等 (2003), CAPPS 系统 的 信息 是 来 自从 美国 众议院 航空 委员 
4 (2002), ， 用 于 威胁 检测 系统 的 无 监督 学 习 是 由 Bay 和 Schwabacher(2003) 论述 的 。 当 
前 的 保护 隐私 数据 挖掘 技术 的 问题 是 由 Datta 等 人 (2003) 确定 的 。Stone 和 Veloso(2000 ) 
从 机 器 学 习 的 角度 来 审视 类 似 机 器 人 足球 运动 的 多 智能 体系 统 。 令 人 感 兴趣 的 有 关 Ben 
Ish Chai 的 故事 以 及 揭露 他 身份 的 技术 来 自 Koppel 和 Schler( 2004 ) 。 

平静 的 计算 世界 景象 和 我 们 提 到 过 的 例子 来 自 Weiser 和 Brown( 1997) 。 关 于 演示 编程 
不 同方 法 的 更 多 信息 可 以 从 Cypher (1993 ) 和 Lieberman (2001) 出 版 的 文献 中 找到 。 
Mitchell ÆA (1994) 报道 了 一 些 学 习 学 徒 的 经 历 。Paynter(2000) 描述 了 Familiar, Good 
(1994) 所 论述 的 置换 检验 是 适合 小 样本 问题 的 统计 检验 : Frank(2000) 讨论 了 它们 在 机 
器 学 习 上 的 应 用 。 
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经 验 表 明 ， 没 有 哪 一 种 机 器 学 习 方 案 可 以 解决 所 有 的 数据 控 气 问题 。 放 之 四 海 而 缘 准 
的 学 习 器 不 过 是 一 种 幻想 。 正 如 我 们 在 本 书 中 所 强调 的 ， 真 实数 据 集 种 类 繁多 ， 要 想 获取 
准确 的 模型 ， 学 习 算法 的 偏好 必须 与 该 领域 的 结构 相 吻 合 。 数 据 挖 气 是 一 门 实验 性 很 强 的 
学 科 。 

Weka 工作 平台 汇集 了 当今 最 前 沿 的 机 器 学 习 算法 及 数据 预 处 理工 具 。 本 书 中 所 讨论 
的 算法 几乎 都 涵盖 于 其 中 。 其 目的 是 让 用 户 能 够 快速 灵活 地 将 现 有 的 处 理 方法 应 用 于 新 的 
数据 集 。 它 为 数据 控 气 实验 的 整个 过 程 ， 包 括 准备 要 输入 的 数据 、 用 统计 方法 评估 学 习 方 
案 ， 以 及 可 视 化 输入 数据 和 学 习 结果 ， 提 供 了 广泛 支持 。Weka 不 但 包含 多 样 化 的 学 习 算 
法 ， 还 提供 大 量 适应 范围 很 广 的 预 处 理工 具 。 用 户 可 通过 一 个 通用 界面 获得 各 类 综合 性 工 
具 包 ， 从 而 比较 不 同 的 学 习 算法 ， 找 出 能 够 解决 当前 问题 的 最 有 效 方法 。 

Weka 是 由 新 西 兰 怀 卡 托 大 学 开发 的 。Weka 是 怀 卡 托 智能 分 析 系统 的 缩写 。 在 怀 卡 托 
大 学 以 外 的 地 方 ，Weka 通常 按 谐音 念 成 Mecca， 这 是 一 种 好 问 而 不 会 飞 的 鸟 ， 现 今 仅 存 
活 于 新 西 兰 岛 。Weka 系统 由 Java 语言 开发 而 成 ， 在 CNU 通用 公共 许可 证 的 条 款 下 发 布 。 
它 几 乎 可 以 在 所 有 的 操作 平台 上 运行 ， 已 经 测试 通过 的 平台 包括 Linux, Windows, Macin- 
tosh 操作 系统 ， 甚 至 还 包括 一 款 个 人 数字 化 助手 。Weka 提供 了 一 个 统一 界面 ， 可 结合 预 
处 理 及 后 处 理 方法 ， 将 许多 不 同 的 学 习 算法 应 用 于 任何 所 给 的 数据 集 ， 并 评估 由 不 同 的 学 
习 方案 所 得 出 的 结果 。 


10.1 Weka 中 包含 了 什么 


Weka 通过 实现 各 种 学 习 算法 ， 使 用 户 能 够 很 容易 地 将 其 应 用 于 所 要 处 理 的 数据 集中 。 
Weka 还 包含 了 种 类 繁多 的 用 于 数据 集 转换 的 工具 ， 比 如 在 第 7 章 中 讨论 过 的 离散 化 算法 。 
用 户 可 以 先 将 一 个 数据 集 进行 预 处 理 ， 然 后 置 其 于 一 种 学 习 方 案 中 ， 并 对 所 得 出 的 分 类 器 
及 其 性 能 做 出 分 析 一 一 整个 过 程 无 需 用 户 编写 任何 程序 代码 。 

Weka 工作 平台 包含 能 处 理 所 有 的 标准 数据 挖掘 问题 的 方法 : 回归 、 分 类 、 聚 类 、 关 
联 规则 挖掘 以 及 属性 选择 。 对 所 要 处 理 的 数据 进行 分 析 是 整个 工作 中 必 不 可 少 的 一 环 ， 
Weka 提 供 了 许多 用 于 数据 可 视 化 及 预 处 理 的 工具 。 所 有 算法 对 所 要 输入 的 数据 都 有 以 下 
要 求 : 其 数据 形式 必须 是 在 2. 4 节 中 描述 过 的 ARFF 格式 ， 并 要 求 以 单一 关系 列表 的 形式 
输入 。 这 些 数据 可 从 文件 中 读 取 或 由 数据 库 查 询 产生 。 

Weka 的 使 用 方式 之 一 是 将 一 种 学 习 方 法 应 用 于 一 个 数据 集 ， 然 后 分 析 其 输出 来 更 好 
地 理解 这 些 数据 。 另 外 一 种 方式 则 是 使 用 已 学 习 到 的 模型 对 新 的 实例 做 出 预测 。 第 三 种 方 
式 是 应 用 多 种 不 同 的 学 习 器 ， 再 根据 它们 的 性 能 选择 其 中 一 种 用 来 做 预测 。 用 户 可 在 We- 
ka 互动 式 界面 的 菜单 中 选择 一 种 想 要 的 学 习 方法 。 许 多 方法 带 有 可 调节 的 参数 ， 这 些 参数 
可 通过 属性 列表 或 对 象 编辑 器 (object editor) 进行 更 改 。 这 里 学 习 方 法 也 称 为 分 类 器 。 所 
有 分 类 器 的 性 能 由 同一 个 通用 评估 模块 衡量 。 
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Weka 平台 中 最 有 价值 的 部 分 是 真实 学 习 方 案 的 实现 。 其 次 当 属 数据 预 处 理工 具 ， 也 
PALES (filter) 。 与 选择 分 类 器 一 样 ， 用 户 也 是 从 菜单 中 选择 过 滤器 ， 然 后 对 其 进行 
调整 直到 满足 需求 。 本 书后 面 将 谈 到 如 何 使 用 不 同 的 过 滤器 ， 列 出 过 滤器 所 用 的 算法 ， 并 
描述 不 同 过 滤器 的 参数 。Weka 中 还 包含 了 一 些 算法 的 实现 ， 如 学 习 关 联 规则 、 未 指定 类 
值 的 育 类 数据 ， 以 及 从 数据 中 选择 相关 属性 等 。 我 们 将 简单 加 以 叙述 。 


10.2 如 何 使 用 Weka 


使 用 Weka 的 最 简单 方法 是 通过 称 为 Explorer 的 图 形 用 户 界面 。 通 过 这 个 用 户 界面 ， 
所 有 Weka 的 功能 都 可 以 由 菜单 选择 及 表单 填写 的 方式 完成 。 例 如 ， 用 户 可 从 ARFF 文件 
(或 电子 数据 表 ) 中 快速 读 取 一 个 数据 集 ， 并 根据 此 数据 集 建立 决策 树 。 然 而 建立 决策 树 
仅仅 是 开始 ， 还 有 很 多 其 他 算法 有 待 于 探索 。Explorer 用 户 界面 在 这 里 大 显 身 手 。 它 通过 
将 选项 转化 为 菜单 ， 将 不 适用 的 选项 设 定 为 不 可 选 并 将 用 户 选 项 设计 成 表单 填写 的 形式 ， 
引导 用 户 一 步 一 步 按 照 合 适 的 顺序 完成 对 算法 的 探索 。Weka 还 对 所 含 工具 给 出 了 用 法 提 
示 ， 即 当 鼠 标 光 标 在 屏幕 上 移 至 相应 工具 上 时 ， 以 弹出 工具 提示 的 形式 解释 该 工具 如 何 使 
用 ， 这 对 于 用 户 使 用 工具 极 有 帮助 。 合 理 的 默认 值 设置 使 得 用 户 能 以 最 小 的 工作 量 取得 预 
期 的 结果 。 当 然 ， 用 户 必 须 对 所 做 的 操作 进行 思索 ， 才 能 理解 所 得 结果 的 确切 含义 。 

Weka 还 包含 了 另外 两 个 图 形 用 户 界 面 。Knowledge Flow 界面 使 用 户 能 够 自己 设置 如 
何 处 理 流动 中 的 数据 。Explorer 界面 的 一 个 根本 缺陷 在 于 它 将 所 需要 的 数据 全 部 置 于 主 
存 中 。 一 旦 用 户 打 开 一 个 数据 集 ， 所 有 数据 都 会 被 读 取 进 来 。 这 意味 着 此 种 处 理 方式 只 
适用 于 小 至 中 等 规模 的 问题 。Weka 还 包含 一 些 能 够 处 理 非常 大 型 的 数据 集 的 增 量 算法 。 
Knowledge Flow 界面 允许 用 户 在 屏幕 上 任意 拖 动 代表 学 习 算 法 和 数据 源 的 方 框 ， 并 将 它 
们 结合 在 一 起 进行 设置 。 这 样 使 用 户 能 够 通过 将 代表 数据 源 、 预 处 理工 具 、 学 习 算 法 、 
评估 手段 以 及 可 视 化 模块 的 各 个 部 件 组 合 在 一 起 ， 形 成 一 个 数据 流 。 如 果 用 户 所 选择 的 
过 滤器 和 学 习 算 法 具有 增 量 学 习 功 能 ,那么 大 型 数据 集 的 增 量 分 批 读 取 及 处 理 即 可 
实现 。 

Weka 的 第 三 个 界面 Experimenter 是 专门 设计 用 来 帮助 用 户 解答 实际 应 用 中 所 遇 到 的 一 
个 基本 问题 ， 即 在 将 分 类 及 回归 技术 运用 于 实践 时 ， 对 于 一 个 已 知 的 问题 ， 哪 些 方法 及 参 
数值 能 够 取得 最 佳 效果 ? 仅仅 靠 推测 是 无 法 回答 这 个 问题 的 。 我 们 设计 这 样 一 个 工作 平台 
的 原因 之 一 就 是 提供 一 个 工作 环境 使 用 户 能 够 将 不 同 的 学 习 技 术 进 行 比较 。 虽 然 通 过 
Explorer 界 面 也 可 互动 式 地 做 到 这 一 点 ， 然 而 使 用 Experimenter 界面 ， 用 户 可 令 处 理 过 程 自 
动 化 ， 因 为 它 能 使 具有 不 同 参数 设 定 的 分 类 器 和 过 滤器 在 运行 一 组 数据 集 时 更 加 容易 ， 收 
集 性 能 统计 数据 及 实现 显著 性 测试 时 更 加 简便 。 高 级 用 户 还 可 利用 Java. 远程 方法 调用 
(RMI) 方式 在 Experimenter 界面 上 将 计算 负荷 分 布 到 多 个 机 器 上 。 这 样 ， 用 户 即 可 设 定好 
大 规模 统计 实验 ， 然 后 令 机 器 自动 运行 。 

隐藏 在 这 些 互动 式 界面 背后 的 是 Weka 的 最 基本 功能 。 这 些 功能 涵盖 了 Weka 系统 的 
全 部 特色 并 可 通过 键入 文本 命令 的 原始 方式 来 实现 。 当 用 户 打开 并 运行 Weka 后 ， 必 须 从 
如 下 4 种 不 同 的 用 户 界 面 中 做 出 选择 : Explorer, Knowledge Flow, Experimenter 和 命令 行 界 
面 。 我 们 会 在 下 面 依次 介绍 这 些 界面 。 大 多 数 用 户 都 会 选择 Explorer 界面 ， 至 少 在 首次 使 
用 Weka 时 会 如 此 。 
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10.3 Weka 的 其 他 应 用 


使 用 Weka 时 ， 一 项 重要 的 可 利用 资源 是 在 线 帮助 文件 。 这 个 文件 由 源 代 码 自 动 生成 ， 
准确 地 反映 了 源 代码 的 结构 。 我 们 会 解释 如 何 使 用 这 个 文件 ， 给 出 Weka 的 主要 框架 ， 并 
对 含有 指导 性 学 习 方法 的 部 分 、 数 据 预 处 理工 具 的 部 分 以 及 其 他 学 习 方 案 的 部 分 加 以 强 
调 。Weka 是 一 个 处 在 不 断 发 展 中 的 系统 ， 在 线 文件 总 是 在 不 断 更 新 。 因 此 ， 这 份 由 源 代 
码 自动 生成 的 文件 可 确保 是 最 新 版 本 ， 而 且 是 产生 完整 可 用 的 算法 列表 的 唯一 途径 。 进 一 
步 地 说 ， 这 个 文件 对 于 那些 想 要 提升 到 较 高 层次 并 在 他 们 自己 的 Java 程序 中 访问 Weka 程 
序 库 ， 或 者 希望 编写 并 测试 他 们 自己 的 学 习 方 案 的 用 户 来 说 也 是 极为 必要 的 。 

在 大 多 数 数据 挖掘 程序 中 ， 机 器 学 习 只 是 大 型 软件 系统 中 的 一 小 部 分 。 如 果 用 户 要 编 
写 一 个 自己 的 数据 挖掘 软件 ， 最 好 在 其 软件 的 代码 中 调用 Weka 的 程序 。 这 样 用 户 只 需要 
额外 编写 最 少量 的 代码 ， 就 可 解决 他 们 软件 中 有 关机 器 学 习 的 子 问题 。 我 们 以 一 个 用 Java 

405] 写成 的 有 关 数 据 挖掘 的 简单 程序 作为 范例 ， 说 明 如 何 调用 Weka 中 的 程序 。 这 样 用户 即 可 
对 Weka 中 代表 实例 、 分 类 器 和 过 滤器 的 基本 数据 结构 加 以 熟悉 。 

如 果 用 户 要 成 为 机 器 学 习 算法 的 专家 (或 者 用 户 已 经 是 专家 ) ， 他 们 可 能 会 实现 自己 
的 算法 ， 无 需 把 注意 力 放 在 一 些 索 然 乏 味 的 细节 上 ， 如 从 文件 中 读 取 数 据 、 实 现 过 滤 算 法 
或 编写 代码 来 评估 所 得 结果 等 。 如 果 用 户 真 想 这 么 做 ， 以 下 应 该 是 个 好 消息 : Weka 中 已 
经 包含 所 有 以 上 这 些 功 能 。 要 充分 利用 Weka 的 这 些 功能 ， 用 户 必 须 透 彻 地 了 解 Weka 的 
基本 数据 结构 。 为 了 帮助 用 户 做 到 这 一 点 ， 我 们 会 在 第 16 章 中 进一步 探讨 这 些 结构 并 且 
利用 一 个 示范 性 的 分 类 器 的 实现 过 程 加 以 解释 。 


10.4 如 何 得 到 Weka 


Weka 可 由 以 下 网 址 获取 : http://www. cs. waikato. ac. nz/ml/weka。 用 户 既 可 以 下 载 一 

个 与 具体 操作 系统 相 匹配 的 安装 文件 ， 也 可 以 下 载 一 个 可 执行 的 Java 包 文 件 (jar file), 

然后 在 已 安装 了 Java 的 机 器 上 以 通常 的 方式 运行 。 我 们 建议 用 户 现在 就 下 载 并 安装 ， 然 后 
按照 后 面 章 节 中 给 出 的 范例 进行 操作 。 
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Explorer 界面 





通过 Weka 的 主要 图 形 用 户 界面 Explorer， 用 户 可 以 使 用 菜单 选择 或 者 表单 填写 的 方 
式 来 访问 Weka 提供 的 所 有 功能 。 图 11-1 展示 了 Explorer 界面 。 界 面 顶部 的 6 个 标签 表示 
6 个 不 同 的 面板 ， 分 别 对 应 于 Weka 所 支持 的 几 种 不 同 数据 挖掘 任 务 。 











i 22 2 M e Weka Explorer, — PST num 
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| (Openfie. (OpenURL. ( Open DB... ) ( Generate.. ) ^ indo ^ (C td. 人 Save.. 
| Filter Ree : op 
(Choose) None ( Apply 3: 
Current relation uci aseo Selected aupibute:-————:7———— ME sos 
very autos | Name: normalized-losses Type: Numeric i 
Ins s: 205 . Attributes: 26 — j? l Missing: 41 (20%) Distinct: 51 Unique: 10 (5%) H 
Attributes Staustic Valve 5 
Minimum 65 
1! (an y ( None Y ( timer ) ( Pattern ) | Maximum 256 
RARE STR e ———— ^ (|| Mean 122 
m X StdDev 35,442 
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3^ "fuel-type 1 ee dE CE DIU 
4f aspiration 局 | Class: symboling (Nom) $) ( Visualize All. 人》 
Te s | li “ ait COT 
9 body-style 
rive 








24 
3: 'wheel-ba E 
10! "ength s 
TV. width X 
C Tov "Remove - 3 1 
ir Status- 





‘ OK 


11-1 Explorer 界面 


11.1 开始 


假设 用 户 有 一 些 数据 并 且 想 用 这 些 数据 建立 一 个 决策 树 。 首 先 ， 用 户 需 要 准备 数据 ， 
然后 启动 Explorer 界面 并 载 人 数据 。 其 次 ， 选 择 一 种 构建 决策 树 的 方法 ， 建 立 树 ， 再 解析 
得 到 的 结果 。 使 用 不 同 的 构建 决策 树 的 算法 或 不 同 的 评估 手段 来 重复 以 上 过 程 并 不 难 。 这 
体现 在 用 户 可 在 Explorer 界面 中 任意 选择 每 次 过 程 所 得 出 的 不 同 结果 ， 评 估 基 于 不 同 数据 
集 所 建立 的 模型 ， 并 且 图 形 化 地 显示 所 得 出 的 模型 及 数据 集 本 身 ， 包 括 使 用 该 模型 所 产生 
的 任何 分 类 误差 。 


11. 1.1 准备 数据 


通常 情况 下 ， 数 据 以 电子 数据 表 或 数据 库 形式 给 出 。 然 而 ，Weka 原生 的 数据 存储 方 
式 是 ARFF 格式 〈 见 2.4 节 )。 由 电子 数据 表 转 换 为 ARFF 格式 非常 容易 。ARFT 文件 由 一 
组 实例 组 成 ， 每 个 实例 的 属性 值 用 逗号 分 开 ( 见 图 2-2) 。 大 多 数 电 子 数 据 表 及 数据 库 程 
序 允 许 用 户 将 数据 导出 到 逗号 分 隔 数 值 (CSV). 格式 的 文件 中 ， 该 格式 文件 将 数据 保存 为 
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记录 列 ， 条 目 之 间 用 逗号 隔 开 。 做 完 这 一 步 后 ， 用 户 只 需 将 文件 载 人 一 个 文本 编辑 器 或 文 
用 @ relation 标签 给 该 数据 集 取 个 名 字 ， 用 @ attribute 标签 加 入 属性 信息 ， 再 

起 一 行 键入 @ data， 最 后 将 文件 以 纯 文 本 方式 存储 。 例 如 ， 图 11-2 是 一 个 取 自 1.2 节 中 
Semis Excel 电子 数据 表 ， 载 人 微软 Word 后 以 CSV 格式 呈现 的 同一 组 数据 ， 以 及 用 
手动 方式 转换 成 ARFF 文件 后 的 结果 。 其 实 ， 用 户 自 己 无 需 真正 执行 这 些 步骤 来 建立 
ARFF 文件 ， 正 如 本 书后 面 所 描述 的 ，Explorer 能 够 直接 读 取 CSV 电子 数据 表 。 


Se eae ee ee | 
nu Hu outlook temperature, humidity. windy, play 


foutiook — ]temperaturhumidity supny,85,85, FALSE, no 
sunny,80,90, TR UE,no 
overcast, 83 86, FALSE. yes 


overcast.64, 65, TRUE yes 
sunny,72,95,FALSE.no 
sunny.69,70,FALSE, yes 
rainy,75,80,FALSE yes 
sunny,75,70, TRUE, yes 
overcast,72,90, TRUE yes 
overcast,81,75, FALSE, yes 
rainy,71,91, TRUE,no 


a$8982885$8885 





@relation weather 


ibute outlook (sunny, overcast, rainy) 
ibute pot real 

@attribute humidity real 
(attribute windy (TRUE, FALSE) 

P esten play (yes, no} 


@data 

sunny.85,85. FALSE,no 
sunny,80,90, TRUF,no 
overcast.83,86.FALSE,yes 
rainy,70,96,FALSE,yes 
rainy,68,80,FALSE yes 
rainy,65, 70, TRUE,no 
overcust,64,65, TRUE, yes 
sunny, 72,95, FALSEno 
sunny,69,70,FALSE,yes 
rainy,75, 80, FALSE, yes 
sunny, 75,70, TRUE.yes 
overcast, 72,90, TRUE.yes 
overcast,81,75, FALSE yes 





c) ARFF 
图 11-2 ”天 气 数据 


11.1.2 将 数据 载 入 Explorer 


现在 将 数据 载 人 Explorer 并 开始 分 析 。 启 动 Weka 进入 如 图 11-3a 所 示 的 GUI 选择 器 
面板 ， 从 面板 右 侧 的 4 个 选项 中 选择 Explorer (其 他 选项 在 前 面 的 章节 中 已 做 过 介绍 : 
Simple CLI 是 旧式 的 命令 行 界面 ) 。 

接 下 来 用 户 看 到 的 是 Explorer 的 主 面板 ， 如 图 11-3b 所 示 。 实 际 上 ， 图 11-3b 展示 的 
是 用 户 已 经 将 天 气 数据 载 人 Explorer 后 的 画面 。 面 板 顶 部 的 6 个 标签 代表 Explorer 所 支持 
的 基本 操作 : 当前 正 处 在 Preprocess ( 预 处 理 ) 中 。 单 击 Open file (打开 文件 ) 按钮 ， 用 
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户 可 以 通过 弹出 的 标准 对 话 框 选 择 文件 。 选 中 名 为 weather. arff 的 文件 。 如 果 该 文件 是 
CSV 格式 ， 则 将 其 从 ARFF 数据 文件 转换 为 CSV 数据 文件 。 当 用 户 指 定 一 个 .csv 文件 时 ， 
该 文件 会 自动 转换 成 ARFF 格式 。 


sss Weta Expiorec 


nr Giy Cher Associate Select anbete We 








| (Open tiie.) (Openuki ) (Open Oe.) (Generate) Uode $ (edie) (Come. )} 


-Filter 
(Choose) None Caeo 
Attributes: 5 Di Unique: © (0% 








a) 选择 Explorer 界 面 b) 读 取 天 气 数据 


图 11-3 Weka Explorer 


文件 载 人 后 ， 就 会 出 现 如 图 11-3b 所 示 的 画面 。 由 图 中 的 面板 可 以 得 到 如 下 的 数据 集 
fim: 该 数据 集 包含 14 个 实例 和 5 个 属性 (面板 中 间 偏 左 ) ，5 个 属性 分 别 为 outlook ( BA 
晴 ) temperature (温度 ) humidity (湿度 )、windy( 刊 风 ) 和 play( 玩 ) (面板 左下 方 )。 
第 1 个 属性 outlook 是 默认 的 (用 户 可 通过 单 击 其 他 属性 进行 选择 ) ， 该 属性 没有 缺失 值 ， 
共有 3 个 不 同 取 值 ， 没 有 唯一 的 值 。 其 3 个 属性 取 值 分 别 是 sunny, overcast 和 rainy, 分别 
出 现 5 次 、4 次 和 5 次 (面板 中 间 偏 右 ) 。 面 板 右 下 方 的 柱状 图 表明 对 于 属性 outlook 的 每 
个 不 同 值 ， 类 play 的 两 种 取 值 (yes 和 no) 分 别 出 现 的 频数 。 当 前 柱状 图 上 方 的 属性 框 中 
显示 的 所 选 属性 是 outlook, ， 因 为 这 里 的 柱状 图 是 基于 outlook 属性 的 ， 用 户 可 选择 其 他 任 
意 属性 画 柱 状 图 。 这 里 play 被 选 定 为 类 属性 ， 它 决定 了 柱状 图 的 颜色 ， 其 他 需要 使 用 类 值 
的 过 滤器 也 会 用 到 它 。 

图 11-3b 中 的 属性 outlook 是 名 目 属性 。 如 果 选 择 的 是 数值 型 属性 ， 用 户 就 会 看 到 该 属 
性 的 最 小 值 、 最 大 值 、 平 均值 和 标准 差 。 这 时 候 柱状 图 所 显示 的 是 类 作为 该 项 属性 的 一 个 
函数 的 分 布 (后 面 的 图 11-10 给 出 该 情况 的 一 个 例子 ) 。 

用 户 可 通过 单 击 复 选 框 和 Remove 按钮 来 删除 属性 。 单 击 All 表示 选中 全 部 属性 ， 
None #278 AVE, Invert 表示 反 向 转换 目前 的 选择 Pattern 表示 选择 那些 名 称 与 用 户 给 定 的 
正则 表达 式 匹 配 的 属性 。 用 户 可 通过 单 击 Undo 按钮 撤销 所 做 的 改动 。 单 击 Edit 按钮 会 弹 
出 一 个 编辑 器 ， 通 过 该 编辑 器 ， 用 户 可 检查 数据 ,. 也 可 以 搜索 具体 的 值 进 行 编辑 ， 或 者 删 
除 实 例 和 属性 。 在 每 个 值 以 及 每 列 的 表 头 上 右 击 会 弹出 相对 应 的 上 下 文 菜单 。 


11.1.3 建立 决策 树 


要 想 看 到 6. 1 节 中 描述 过 的 CA. 5 决策 树 学 习 器 的 确 可 以 处 理 数据 集 ， 我们 需要 结合 
]4. 8 算法 ， 该 算法 是 CA. 5 学 习 咒 在 Weka 中 的 实现 (实际 上 ，J4. 8 算法 实现 了 C4. 5 的 版 
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本 8， 这 是 一 个 较 新 且 略 有 改进 的 版 本 ， 是 在 其 商业 版 C5. 0 推出 之 前 该 算法 家 族 中 的 最 
后 一 个 公开 版 本 ) 。 单 击 Classify 标签 ， 得 到 如 图 11-4b 所 示 的 画面 。 该 画面 所 显示 的 实际 
上 是 用 户 对 天 气 数据 做 出 分 析 后 得 到 的 结果 。 

‘i weka diac E uf i aas 


v @ classifiers 
> E bayes 








b) Classify 标 签 


a) 在 分 类 器 列表 中 找到 J48 
图 11-4 使 用 J4.8 


首先 选取 分 类 器 。 单 击 左上 方 的 Choose 按钮 ， 在 随后 打开 的 如 图 11-4a 所 示 的 层级 式 
菜单 中 的 trees 部 分 找到 J48。 该 菜单 的 结构 代表 Weka 源 代 码 的 模块 式 架构 ， 这 将 在 第 14 
章 中 加 以 描述 。 现 在 用 户 所 要 做 的 只 是 打开 相应 的 层级 一 一 待 选 分 类 器 总 是 出 现在 层级 的 
最 下 面 一 层 。 一 旦 选中 ，J48 以 及 它 的 相关 默认 参数 值 就 会 出 现在 Choose 按钮 旁边 的 条 形 
框 中 ， 如 图 11-46b 所 示 。 单 击 这 个 条 形 框 打开 J4. 8 分 类 器 的 对 象 编辑 器 ， 编 辑 器 会 显示 
J48 的 各 个 参数 的 含义 ， 用 户 可 根据 需要 更 改 参数 的 值 。Explorer 通常 会 选择 合理 的 默 
认 值 。 

选 定 分 类 器 后 ， 单 击 Start 按钮 使 其 开始 工作 。Weka 每 次 运行 的 时 间 较 短 。 在 它 工 作 
时 ， 图 11-4b 右 下 角 的 小 乌 会 即时 起 舞 ， 随 后 就 会 产生 如 图 11-4b 所 示 主 面板 上 的 结果 。 


11. 1.4 查看 结果 


图 11-5 列 出 了 全 部 输出 结果 (图 11-4b 所 示 只 是 后 半 部 分 ) 。 在 该 结果 的 开头 给 出 了 
数据 集 概 要 ， 同 时 注 明 所 用 的 评估 方法 是 10 折 交 叉 验 证 。 该 方法 是 默认 的 ， 如 果 用 户 仔 
细 观 察 图 11-4b 会 发 现 左 侧 的 Cross-validation (交叉 验证 ) 框 是 选中 的 。 再 往 下 是 一 棵 剪 
枝 过 的 决策 树 ， 这 棵 树 是 文本 形式 的 。 这 里 给 出 的 模型 通常 是 从 Preprocess 面板 中 的 完整 
数据 集 上 产生 。 第 一 层面 的 分 裂 基于 属性 outlook 进行 ， 第 二 层面 则 分 别 根据 humidity 和 
windy 进行 分 裂 。 

在 这 个 树 结构 中 ， 冒 号 后 面 的 是 分 配 到 某 叶 子 结 点 的 类 标 ， 类 标 后 面 是 到 达 该 叶子 结 
点 的 实例 数量 ， 该 数量 以 十 进 制 数 表 示 ， 因 为 算法 使 用 部 分 实例 来 处 理 缺 失 值 。 如 果 有 错 
误 分 类 的 实例 (图 11-5 中 没有 这 样 的 实例 ) ， 其 数量 也 会 列 出 。 因 此 ，2. 0/1.0 表示 共有 
两 个 实例 到 达 了 该 叶子 ， 其 中 一 个 是 被 错误 分 类 的 。 在 树 结构 的 下 方 给 出 了 该 树 所 含 叶子 
的 数量 ， 然 后 是 结 点 的 总 数 ( 树 的 大 小 )。 有 一 种 方式 可 以 更 加 图 形 化 地 浏览 树 的 结构 ， 
详 见 本 章 的 后 续 内 容 。 
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= Run information === 


Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2 
Relation: weather 
Instances: 14 
Attributes: 5 
outlook 
temperature 
humidity 
windy 
play 
Test mode: 10-fold cross-validation 


Classifier model (full training set) === 


J48 pruned tree 


outlook = sunny 

| humidity <= 75: yes (2.0) 
| humidity > 75: no (3.0) 
outlook = overcast: yes (4.0) 
outlook = rainy 

| windy = TRUE: no (2.0) 

| windy FALSE: yes (3.0) 


Number of Leaves : 5 
Size of the tree : 8 
Time taken to build model: 0.27 seconds 


tratified cross-validation === 


Correctly Classified Instances 64.2857 % 
Incorrectly Classified Instances 35.7143 $ 
Kappa statistic 

Mean absolute error 

Root mean squared error 

Relative absolute error 

Root relative squared error 

Total Number of Instances 


=== Detailed Accuracy By Class === 
TP Rate FP Rate Precision F-Measure ROC Area Class 
0.737 0.789 yes 


0.444 0.789 no 
0.632 0.789 


- yes 
- no 





图 11-5 J4. 8 决策 树 学 习 器 的 输出 结果 


接 下 来 是 对 该 决策 树 的 预测 能 力 所 做 的 评估 。 该 情况 的 评估 结果 由 默认 的 分 层 10 折 交 
又 验证 得 到 ， 如 图 11-4b 所 示 。 由 图 11-4b 可 知 ， 超 过 30% 的 实例 (14 个 中 的 5 个 ) 在 交叉 
验证 中 被 错误 分 类 。 这 表明 ， 与 从 测试 集 上 可 能 得 到 的 结果 相 比 ， 训 练 集 的 结果 已 颇 为 乐 
观 ， 这 里 的 测试 集 与 训练 集 同 源 且 独立 于 测试 集 。 从 结尾 处 的 混淆 矩阵 ( 见 5.7 节 ) 中 可 以 
看 到 ， 有 两 个 属于 yes 的 实例 被 分 为 类 no， 同 时 有 3 个 属于 no 的 实例 被 分 为 类 yes。 
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与 分 类 误差 一 样 ， 评 估 模 块 还 在 输出 结果 中 给 出 了 Kappa 统计 量 ( 见 5.7 节 ) 、 平 均 
绝对 误差 以 及 由 决策 树 指 定 的 类 概率 估计 的 方 均 根 误差 。 方 均 根 误差 是 平均 二 次 损失 的 平 
方 根 ( 见 5.6 45) 。 平 均 绝对 误差 由 类 似 的 方法 计算 得 到 ， 只 是 将 平方 差 蔡 换 成 绝对 差 。 
评估 模块 还 输出 基于 先 验 概率 的 相对 误差 (如 由 后 面 将 要 描述 的 ZeroR 学 习 方 案 所 得 到 的 
概率 ) 。 最 后 ， 它 还 会 针对 每 个 类 给 出 5.7 节 中 描述 过 的 一 些 统 计数 据 。 同 时 还 会 针对 每 
个 类 ， 给 出 其 各 个 统计 量 的 均值 ， 这 些 统计 量 用 每 个 类 的 实例 数量 加 权 得 到 。 


11.1.5 重 做 一 遍 


用 户 可 以 很 容易 地 用 不 同 的 评估 手段 将 JA. 8 再 运行 一 遍 。 选 中 Use training set (LA 
11-4b 左上 方 ) ， 然 后 单 击 Start 按钮 。 很 快 ， 分 类 器 输出 移 除 了 10 折 交 又 验证 的 结果 ， 给 
出 从 训练 集 上 导出 模型 的 表现 情况 。 此 评估 过 于 乐观 ( 见 5.1 节 ), 但 还 是 有 帮助 ， 因 为 
这 类 评估 通常 代表 了 所 用 模型 对 初次 使 用 的 数据 处 理 能 力 的 上 限 。 这 时 ， 全 部 14 个 训练 
实例 都 分 类 正确 。 有 时 候 ， 某 个 分 类 器 也 许 会 对 一 些 实例 不 进行 分 类 。 这 时 ， 这 些 实例 作 
X Unclassified Instances (未 分 类 实例 ) 列 出 。 通 常 Weka 中 的 大 多 数学 习 方法 不 会 出 现 这 
种 情况 。 

如 图 11-4b 所 示 的 面板 上 还 有 额外 的 测试 选项 : Supplied test set (提供 的 测试 集 ) ， 这 
里 用 户 可 以 指定 一 个 测试 集 文 件 ，Percentage split (百分比 分 裂 ) ， 使 用 这 个 选项 用 户 可 设 
置 一 定 比例 的 数据 留 作 测试 用 。 用 户 单 击 More options (更 多 选项 ) 按钮 ， 并 检查 相应 的 
条 目 ， 就 可 在 屏幕 上 输出 每 个 实例 的 预测 情况 。 面 板 上 还 有 其 他 一 些 很 有 用 的 选项 ， 如 省 
略 一 些 输出 结果 以 及 其 他 一 些 统计 量 Cnr PE BERE (entropy evaluation measure) 和 成 本 
敏感 评估 (cost-sensitive evaluation) ) 。 对 于 后 者 ， 用 户 输入 成 本 矩阵: 在 Classes 框 中 键入 
类 的 数量 ( 按 Enter 或 Return 键 终止 ) 得 到 一 个 默认 的 成 本 矩阵 〈 见 5.7 节 ) ， 然 后 按照 
需求 编辑 矩阵 的 值 。 

在 图 11-4b 左下 方 的 小 窗口 中 有 一 条 加 亮 的 横 栏 ， 这 里 就 是 历史 结果 列表 。 每 运行 一 
个 分 类 器 ，Explorer 就 会 添加 新 的 一 栏 。 由 于 该 分 类 器 已 运行 两 次 ， 所 以 列表 中 有 两 条 横 
栏 。 要 返回 到 前 面 的 结果 集 ， 只 需 单 击 相关 的 横 栏 ， 对 应 此 次 运行 的 输出 就 会 出 现在 
Classifier Output (分 类 器 输出 ) 窗口 中 。 该 功能 使 得 用 户 可 以 非常 方便 地 浏览 不 同 的 分 类 
器 或 评估 方案 来 反复 比较 运行 结果 。 


11.1.6 运用 模型 


输出 结果 历史 列表 是 使 用 Explorer 某 些 强大 功能 的 人 口 。 当 用 户 右 击 其 中 一 项 时 ， 随 
后 出 现 的 菜单 允许 用 户 在 单独 的 窗口 查看 结果 ， 或 将 结果 存储 下 来 。 更 重要 的 是 ， 用 户 可 
将 Weka 所 产生 的 模型 以 Java 对 象 文件 的 形式 保存 起 来 。 用 户 还 可 重新 载 人 以 前 保存 过 的 
模型 ， 这 样 会 在 历史 列表 中 产生 一 个 新 的 记录 。 如 果 现 在 用 户 提供 一 个 测试 集 ， 则 可 以 用 
这 个 新 测试 集 重新 评估 以 前 的 旧 模 型 。 

在 弹出 的 菜单 中 右 击 多 个 选项 ， 人 允许 用 户 以 不 同 的 方式 可 视 化 所 得 到 的 各 种 方法 的 结 
果 。 在 Explorer 界面 的 顶部 有 一 个 Visualize 标签 ， 这 个 标签 不 同 的 地 方 在 于 : 它 用 于 显示 
数据 集 而 不 是 某 个 模型 的 输出 结果 。 通 过 右 击 历史 列表 中 的 项 目 ， 用 户 可 看 到 分 类 器 的 误 
差 。 如 果 所 用 模型 是 树 或 贝 叶 斯 网 络 ， 用 户 可 看 到 它 的 结构 。 用 户 还 可 浏览 边际 曲线 
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(margin curve) 、 各 种 成 本 和 闽 值 曲线 ， 包 括 成 本 - 收益 分 析 工 具 (7,5.7 节 ) 。 要 得 到 这 
些 曲 线 ， 用 户 必须 从 子 菜单 中 选择 一 个 类 值 。 利 用 Visualize threshold curve ( fd zs [d (Ei HH 
线 ) 菜单 选项 可 以 查看 改变 概率 阔 值 对 将 一 个 实例 划分 到 相应 类 别 所 产生 的 影响 。 可 供用 
户 选 择 的 曲线 范围 很 广 ， 包 括 ROC 和 召回 率 - 精确 率 曲线 ( 见 表 5-7) 。 要 选取 曲线 ， 从 
所 给 菜单 中 设 定 合 适 的 x Aly 坐标 轴 。 例 如 ， 对 一 个 ROC PHAR KL, KE X VEH False posi- 
tive rate (BEX), YA True positive rate (EEX), 8X X RA Recall (召回 率 ), Yik 
为 Precision (精确 率 )， 则 得 到 召回 率 — 精确 率 曲 线 。 

图 11-6 给 出 了 两 种 方式 查看 利用 J4. 8 对 营 尾 花 数据 集 进行 分 类 的 结果 ( 见 1.2 节 )， 
这 里 没有 使 用 天 气 数据 集 ， 因 为 用 芒 尾 花 数据 集 生成 的 图 更 有 趣 。 图 11-6a 给 出 了 所 产生 
的 树 。 在 窗口 的 空白 处 右 击 ， 弹 出 一 个 菜单 ， 用 户 可 设 定 图 形 尺寸 自动 调整 或 者 说 使 树 更 
适合 窗口 的 大 小 。 拖 动 鼠 标 可 使 树 在 窗口 中 任意 移动 。 如 果树 已 经 根据 所 用 算法 存储 下 
来 ,还 可 以 将 任意 结 点 上 的 实例 数据 图 形 化 。 
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b) 分 类 器 误差 
11-6 ”可 视 化]4.8 应 用 于 营 尾 花 数据 集 上 的 结果 
图 11-6b JH 2 维 点 阵 显示 分 类 器 误差 。 用 户 可 利用 界面 顶部 的 选择 框 为 坐标 和 和 了 选 


择 属 性 。 还 有 一 个 办 法 是 单 击 位 于 2 维 点 阵 右 侧 的 带 斑 点 的 水 平 条 中 的 任何 一 条 : 单 击 确 
定 了 坐标， 右 击 确定 Y。 每 个 水 平 条 显示 的 是 对 应 于 该 属性 的 实例 分 布 。 字 母 X 和 YY 会 分 
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别 出 现 在 用 户 所 选 定 的 作为 相应 忒 和 了 了 坐标 的 水 平 条 旁边 。 

代表 数据 的 点 用 不 同 的 颜色 区 分 各 自 所属 的 类 : 蓝 、 红 和 绿 分 别 代表 Iris setosa, Iris 
versicolor 和 Iris virginica ( 见 屏幕 底部 的 标注 ) 。 正 确 进行 分 类 的 实例 用 十 字 叉 表示 ， 未 被 
正确 分 类 的 实例 用 小 方 框 表示 (图 11-6b 中 共有 3 个 小 方 框 )。 用 户 可 单 击 任何 一 个 代表 
实例 的 点 查看 其 详细 信息 : 实例 的 编号 、 属 性 值 、 实 际 所 属 的 类 和 预测 出 的 类 。 


11. 1.7 运行 错误 的 处 理 


在 历史 结果 列表 的 下 面 有 一 个 状态 栏 ， 即 图 11-4b 的 底部 ， 通 常 只 简单 显示 OK. A 
时 候 状 态 栏 会 显示 See error log ( 见 出 错 日 志 ) ， 这 表明 运行 中 出 现 错误 。 例 如 ， 用 户 在 面 
板 中 做 出 不 同 选择 的 过 程 中 可 能 会 存在 一 些 限制 条 件 。 绝 大 多 数 情况 下 ， 界 面 上 那些 不 兼 
容 的 选项 会 被 设 成 灰色 让 用 户 无 法 选择 。 但 偶尔 也 有 这 样 的 情况 ， 太 复杂 的 人 机 互动 导致 
用 户 能 够 选择 一 些 不 兼容 的 选项 。 在 这 种 情况 下 ， 当 Weka 意识 到 出 错时 ， 通 常 是 用 户 单 
击 Stat 时 ， 状 态 栏 会 出 现 提示 。 要 查看 出 错 信 息 ， 需 要 单 击 界 面 右 下 角 位 于 Weka 鸟 左 侧 
的 Log 按钮 。Weka 同时 还 会 往 用 户 根 目录 下 名 为 weka. log 的 文件 中 写 和 人 一 个 详细 的 日 志 。 
由 于 这 个 文件 捕获 了 直接 输出 到 标准 输出 〈 即 错误 管道 ) 的 系统 调试 输出 ， 因 此 对 问题 的 
产生 原因 ， 这 个 文件 通常 会 给 出 比 Explorer 的 Log 窗口 更 详尽 的 信息 ( 见 11.2 节 )。 


11.2 探索 Explorer 


在 图 11-3b 和 图 11-4b 中 ， 我 们 简单 介绍 了 Explorer 窗口 顶部 6 个 标签 中 的 两 个 。 在 
此 ， 对 它们 的 功能 做 一 小 结 : 

1) Preprocess ( 预 处 理 ) : 选择 数据 集 ， 并 以 多 种 方式 对 其 进行 修改 。 

2) Classify (4728): 训练 用 于 分 类 或 回归 的 学 习 方案 ， 并 对 它们 进行 评估 。 

3) Cluster (RA): 学 习 数 据 集 的 聚 类 。 

4) Associate (关联 ) : 学 习 数 据 的 关联 规则 并 对 它们 进行 评估 。 

5) Select attributes (选择 属性 ) : 在 数据 集中 选择 最 相关 的 部 分 。 

6) Visualize (可 视 化 ): 查看 不 同 的 2 维 数据 点 图 并 与 其 互动 。 

每 个 标签 页 都 可 以 使 用 全 部 功能 。 到 目前 为 止 ， 我们 也 只 是 对 Preprocess 和 Classify H 
板 做 了 浅显 的 探讨 。 

在 每 个 面板 的 底部 有 一 个 Status (状态 ) 栏 和 一 个 Log (日 志 ) 按钮 。 用户 可 从 状态 栏 显 
示 的 信息 得 知 Weka 正在 做 什么 。 例 如 ， 若 Explorer 正在 载 人 一 个 文件 ， 状 态 栏 中 会 显示 这 个 
信息 。 右 击 状态 栏 ， 会 弹出 一 个 含有 两 个 选项 的 小 菜单 : 显示 Weka 目前 可 用 的 存储 器 容量 和 
运行 Java 垃圾 收集 器 。 需 要 指出 的 是 ， 垃 圾 收集 器 是 作为 一 个 后 台 任务 不 间断 地 运行 。 

单 击 Log 按钮 打开 一 个 文本 日 志 ， 其 中 记录 Weka 在 该 次 运行 期 间 所 进行 的 所 有 活动 
以 及 各 项 活动 的 时 间 。 

如 前 所 述 ， 当 Weka 运行 时 ，Explorer 窗口 右 下 角 的 小 鸟 会 站 起 来 跳舞 。 x 旁边 的 数 
字 显 示 有 和 多少 个 同时 进行 的 进程 。 如 果 小 鸟 站 在 那里 不 动 ， 说 明 它 病 了 ! Weka 出 现 运 行 
错误 ， 用 户 必须 重新 启动 Explorer。 


11.2.1 载 入 及 过 滤 文 件 
在 图 11-3b 中 ，Preprocess 面板 的 顶部 有 一 些 按钮 是 用 来 打开 文件 、 站 点 及 数据 库 的 。 
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最 初 ， 只 有 名 字 以 .arff 结尾 的 文件 出 现在 文件 浏览 器 中 ， 要 想 浏览 其 他 格式 的 文件 ， 调 整 
文件 选择 框 中 的 Format (格式 ) 选项 。 


将 文件 转换 为 ARFF 格式 


Weka 带 有 的 文件 格式 转换 器 如 下 所 示 : 
e 扩展 名 为 .csv 的 电子 表格 文件 。 
e 扩展 名 为 .names 和 .data 的 C4. 5 原始 格式 文件 。 
扩展 名 为 .bsi 的 已 经 串 行 化 的 实例 。 
扩展 名 为 .libsvm 的 LIBSVM 格式 文件 。 
扩展 名 为 .dat 的 SVM- Light 格式 文件 。 
扩展 名 为 .xrff 的 基于 XML 的 ARFF 格式 文件 。 
可 适用 的 转换 器 是 根据 文件 扩展 名 决定 的 。 如 果 Weka 无 法 载 人 数据 ， 它 会 尝试 将 其 
当做 ARFF PAEA S A i la 11-7a la 





Choose ) weka.core.converters.CSVLoader 
weka.core.converters.CSVLoader 
| rABgut- — - = = - SYNOPSIS 
| Reads a source that is in comma separated or 
pini eed format. es sumes y be bik ot me fe 
ber of am f the a 


1 Reads a source that ìs in comma separated or tab separated 
[fakat (More ) 


butes. 








missingValue ? OPTIONS 
1 人 tats -- The placeholder for missing values, 
| neminalAttributes default is " : 
{ stengAtn = nominalAttributes -- The range of attribui he to force to be i 
x nes of type NOMINAL, example ranges: ‘first-tas: H 
useRelativePath | False = ta re E] ATM S0-a, 


stringAttributes -- The range of attri nonas to force to be 
= pee STRING, KM imple ranges: ‘firs! 
4,7-14. 





a) 编辑 器 b) 更 多 信息 ( 单 击 More) 


m weka 
M fli core 
v "I 
[5 Arfftoader 
日 j C45Loader 





1 DatabaseLoader 

E LibSVMLoader 

| Li SeriatizedinstancesLoader 
| s SVMLightLoader 

| TextDirectoryLoader 

[3 XRFFLoader 


ICAL 


c) 选择 一 个 转换 器 〈 单 击 Choose ) 


图 11-7 通用 对 象 编辑 器 

图 11-7a 是 一 个 通用 对 象 编辑 器 ，Weka 自始至终 用 它 来 选择 和 设 定 对 象 。 例 如 ， 当 用 户 为 
一 个 分 类 器 设 定 参数 时 ， 使 用 相同 的 对 话 框 。 图 中 用 于 载 人 .csv 文件 的 CSVLoader (CSV RA 
器 ) 是 默认 的 ， 单 击 More 按钮 会 得 到 更 多 有 关 CSVLoader 的 信息 ， 见 图 11-7b。 阅 读 帮 助 文件 
总 是 有 益 的 ! 就 此 例 来 说 ， 帮 助 文件 说 明 电子 数据 表 的 第 一 行 给 出 了 属性 的 名 字 等 。 单 击 OK 
即 可 应 用 这 个 转换 器 。 在 图 11-7c 中 ， 单 击 Choose 可 以 从 列表 中 选择 不 同 的 转换 器 。 

ArffLoader (Arf 载 入 器 ) 是 第 一 个 选项 ， 用 户 到 这 一 步 的 唯一 原因 是 ArffLoader RA 
不 成 功 。 第 二 个 选项 用 于 C4.5 格式 ， 对 每 个 数据 集 都 有 两 个 文件 ， 一 个 是 域名 ， 另 一 个 
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是 实际 数据 。 第 三 个 选项 CSVLoader 是 默认 的 ， 用 户 可 以 单 击 Choose 来 更 换 其 他 选项 。 第 
四 个 选项 是 从 数据 集 而 不 是 文件 读 取 数 据 ， 实 际 上 通过 单 击 Preprocess 面板 的 Open DB 按 
钮 得 到 SQLViewer (SQL AAR) 工具 〈 见 图 11-8) 的 方式 来 访问 数据 集 更 加 方便 。seri- 
alized instances 〈 串 行 化 实例 ) 选项 用 来 重新 载 人 已 存储 为 串 行 Java 对 象 的 数据 集 。 任 何 
Java 对 象 都 能 以 这 种 形式 存储 并 重新 载 人 。 作 为 一 种 原始 的 Java 格式 ， 它 比 载 人 ARFF 格 
式 文 件 要 快 得 多 ，ARIT 格式 文件 需 经 过 解析 和 检查 。 当 需要 不 停 地 重新 载 人 大 的 数据 集 
时 ， 将 它们 存 为 这 种 形式 会 很 有 用 。 






LAE 
; Connection 








URL  jdbc hsaldb hsql //locathost/xdb f User. ) { Connect ! History... > 
Query 
| Sele from i EC = 








i “Row SEPALLENGTH SEPALWIDTH PETALLENGTH PETALWIDTH CLASS — 
f 1 5.1 3.5 1.4 0.2 Iris-setosa (  Clseal ) 
2 4.9 3.0 1.4 0.2 iris-setosa 6 
3 4.7 32 13 0.2 iris-setosa | (C Re-use query. ) 
4 4.6 3.3 1.5 9.2 trís-setosa f 
5 5.0 3.6 1.4 0.2 iris-setosa 2 Optimal width ) 
5 5.4 3.9 1.7 0.4 fris-setosa 1 
7 4.6 3.4 14 0.3 iris-setosa f 
8 5.0 3.4 LS 0.2 Iris-setosa 
9 44 2.9 1.4 0.2 Hs-setosa 
10 4.9 3.1 1.5 0,1 Wis-setosa i 
11 5.4 3.7 L$ 0.2 tris-setosa i 
12 4.8 34 16 0.2 iris- setosa | 
13 4.8 3.0 1.4 0.1 tris--sétosa 
14 4.3 3.6 1.4 0.1 Wis-setosa 
1& ca an Paon i entot n B4 
FQueyi) 


connecting to: jdbchsaldb hsqL//localhosU/Xdb = true mn meet — tC Cir ) 





Current query: select * from iris EOR my Cancel ) 


图 11-8 SQLViewer T.H. 


第 八 个 菜单 项 用 于 导 和 人 纯 文 本 文件 的 目录 ， 其 目的 是 用 于 文本 挖掘 。 导 入 的 目录 最 好 
有 特定 的 结构 ， 也 就 是 一 个 子 目 录 和 集合 ， 每 个 子 目 录 包 含 一 个 或 多 个 .txt 扩展 名 的 文本 文 
件 。 每 个 文本 文件 都 会 成 为 数据 集 里 的 一 个 实例 ， 用 一 个 字符 串 类 型 的 属性 来 描述 文件 内 
容 ， ini o 3 型 类 属性 来 说 明 其 源 自 的 子 目 录 名 称 。 通 过 使 用 StringTo- WordVector 过 滤 
器 〈 下 节 介 绍 ) ， 该 数据 集 将 被 继续 处 理 成 词 频 ( 见 7.3 节 )。 最 后 面 的 选项 用 于 往 XRFF 
中 导入 数据 ， F (eXtensible attribute- Relation File Format) 是 一 种 XML 属性 关系 文件 格 
式 ， 正 如 其 名 字 描 述 的 一 样 ，XRFF 包括 ARFF 文件 头 和 实例 信息 两 部 分 ， 其 中 实例 信息 
使 用 XML 标记 语言 描述 。 

图 11-7a 中 的 通用 对 象 编辑 器 (generic object editor) 的 其 他 功能 包括 : Save (保存 ) ， 
用 于 保存 配置 好 的 对 象 ; Open (打开 ) ， 用 于 打开 一 个 已 保存 的 对 象 。 这 些 功能 对 于 图 中 
的 情况 也 许 用 不 上 ， 但 是 其 他 几 个 通用 的 编辑 器 面板 有 许多 可 编辑 的 属性 ， 当 用 户 设 定 这 
些 属 性 遇 到 麻烦 时 ， 可 将 那些 设置 好 的 对 象 存储 起 来 以 备 将 来 使 用 。 

用 户 计算 机 上 的 文件 并 不 是 Weka 数据 集 的 唯一 来 源 。 用 户 可 打开 一 个 URL (统一 资 
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源 定位 器 ) Weka 会 利用 HTTP 协议 从 Web 上 下 载 一 个 ARFF 文件 。 用 户 也 可 以 选择 打开 
一 个 数据 库 (Open DB) ， 可 以 是 任何 已 装载 Java 数据 库 连 接 (JDBC) 驱动 的 数据 库 ， 再 
使 用 SQL Select 语句 来 检索 实例 。 选 择 语句 会 返回 一 个 关系 ，Weka 将 此 关系 作为 一 个 
ARFF 文件 读 人 。 欲 使 该 功能 也 能 用 于 用 户 的 数据 库 ， 用 户 必 须 对 Weka 发 行 配套 包 中 的 
weka/experiment/ DatabaseUtils. props 文件 进行 修改 。 修 改 的 方式 是 将 用 户 数据 库 的 驱动 程 
序 添加 到 这 个 文件 中 〈 读 取 这 个 文件 的 方式 是 展开 Weka 发 行 配套 包 中 的 weka. jar 文件 ) 。 
图 11-8 展示 了 单 击 Open DB 时 出 现 的 SQLViewer 工具 。 在 这 个 例子 中 ， 从 一 个 数据 库 表 
中 抽取 出 了 芒 尾 花 数据 集 。 

利用 图 11-3b 中 Preprocess 面板 上 的 Save 按钮 ， 数 据 可 保存 为 前 述 格 式 中 的 任意 一 
种 。 用 户 还 可 以 使 用 Generate 按钮 来 生成 人 工 数据 。 适 用 于 分 类 任务 的 人 工 数据 可 由 决策 
列表 、 径 向 基 函 数 网 络 以 及 贝 叶 斯 网 络 产生 ， 也 可 以 由 传统 的 LED24 5X (classic LED24 
domain) 生成 。 用 于 回归 任务 的 人 工 数据 则 可 根据 数学 表达 式 产生 。 而 对 于 聚 类 任务 的 人 
工 数 据 ， 面 板 上 同样 有 多 个 相应 的 生成 器 。 除 了 载 人 和 存储 数据 集 功 能 外 ， 用 户 还 可 通过 
Preprocess 面板 过 滤 数 据 集 。 过 滤器 是 Weka 的 一 个 重要 组 件 。 

使 用 过 滤器 

单 击 图 11-3b 中 的 Choose 按钮 (靠近 左上 方 ) ， 用 户 将 看 到 如 图 11-9a 所 示 的 过 滤器 
列表 。 实 际 上 ， 用 户 现在 看 到 的 是 收缩 版 一 一 单 击 箭头 可 展开 内 容 。 本 书 将 描述 如 何 利用 
一 个 简单 的 过 滤器 来 删除 数据 集 的 指定 属性 ， 换 名 话说， 手动 选择 属性 。 通 过 在 复 选 框 中 
勾 选 相应 的 属性 ， 然 后 单 击 Remove 按钮 ， 是 另 一 种 更 为 简易 的 实现 手动 选择 属性 的 方式 。 
然而 ， 我 们 会 用 一 个 范例 明白 无 误 地 描述 过 滤器 的 操作 过 程 。 

Remove 是 一 个 无 监督 的 属性 过 滤器 ， 需 要 进一步 向 下 拉动 页 面 才 能 看 到 它 。 一 旦 选 
中 ， 它 就 会 出 现在 Choose 按钮 的 旁边 ， 同 时 出 现 的 还 有 其 参数 值 。 图 11-9 中 的 例子 只 简 
单 地 显示 了 “删除 ” 。 单 击 过 滤器 所 在 横 栏 ， 弹 出 一 个 通用 对 象 编辑 器 ， 通 过 该 编辑 器 用 
户 可 以 检查 并 修改 过 滤器 的 属性 (前 面 的 章节 已 有 类 似 的 操作 ， 即 在 图 11-4b 中 单 击 J48 
横 栏 ， 打 开 JA. 8 分 类 器 的 对 象 编辑 器 ) Remove 过 滤器 的 对 象 编辑 器 如 图 11-9b 所 示 。 

为 了 更 多 地 了 解 该 编辑 器 ， 单 击 More 显示 相关 信息 (JILE 11-9c) 。 由 图 11-9c 可 知 ， 
过 滤器 删除 了 数据 集中 的 一 系列 属性 。attributeIndices 选项 指明 了 属性 的 范围 ， 另 一 个 选 
项 invertSelection 则 确定 过 滤器 是 选 定 这 些 属 性 还 是 删除 它们 。 这 两 个 选项 在 对 象 编辑 器 中 
( 见 图 11-9b) 分 别 显示 在 各 自 的 框 中 ， 实 际 上 ， 我 们 已 经 将 它们 设 定 为 1，2 ( 即 属性 1 和 
2， 相 对 应 的 属性 名 字 为 outlook Fil temperature) 和 False 〈 即 删除 而 不 是 保留 它们 ) 。 单 击 OK 
使 这 些 选项 生效 并 关闭 对 话 框 。 注 意 ， 此 时 Choose 按钮 旁 的 文字 变 成 了 Remove-R 1，2。 在 
Remove 过 滤器 的 命令 行 中 ，-R 选项 用 来 指明 哪些 属性 被 删除 。 设 置 完 一 个 对 象 后 ， 再 审 
视 一 遍 Explorer 设 定 的 命令 行程 序 结果 总 是 有 益 无 害 的 。 

图 11-9 演示 了 通用 编辑 器 的 另 一 个 特征 ， 即 能 力 (capabilities), Weka 中 的 算法 给 出 
了 能 被 它 处 理 的 数据 特征 ， 如 果 当 前 数据 是 可 以 处 理 的 ， 通 用 编辑 器 中 按钮 More 的 下 方 
会 出 现 一 个 Capabilities 按钮 ( 见 图 11-9b) 。 单 击 该 按钮 得 到 图 11-9d 的 画面 ， 其 中 给 出 的 
是 这 个 方法 可 以 完成 何 种 任务 的 信息 。 因 此 可 知 在 该 图 中 ，Remove 可 以 处 理 多 种 特征 的 
属性 ， 如 不 同 的 属性 类 型 (名 目 型 、 数 值 型 、 关 系 型 等 ) ， 还 可 以 处 理 值 缺 失 的 属性 。 图 
中 还 给 出 了 Remove 操作 要 求 的 最 小 实例 数目 。 
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单 击 图 11-9a 面板 顶部 的 Filter 按钮 ， 得 到 图 11-9e 的 窗口 ， 窗 口 给 出 了 一 系列 对 相应 
的 已 勾 选 好 的 能 力 约束 。 如 果 当 前 的 数据 集 具 备 了 图 11-9e 中 已 勾 选 的 特征 ， 但 在 用 于 
Remove 过 滤器 ( 见 图 11-9d) 的 能 力 中 缺少 相应 特征 ， 那 么 图 11-3b 中 位 于 Choose 按钮 右 
边 的 Apply 按钮 就 会 变 成 灰色 ， 同 时 图 11-9a 中 的 列表 入 口 也 会 变 为 灰色 。 这 个 时 候 尽管 
不 能 应 用 过 滤器 ， 但 是 用 户 还 是 可 以 选择 一 个 变 灰 的 入 口 ， 使 用 通用 编辑 器 来 检查 其 选 
项 、 文 件 以 及 性 能 。 用 户 也 可 以 在 如 图 11-9e 所 示 的 窗口 中 取消 选择 相应 的 约束 来 解除 约 
束 ， 或 者 单 击 Remove filter 按钮 来 清除 所 有 FEEDS 
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e) 能 力 约束 条 件 


图 11-9 选择 过 滤器 


单 击 Apply (ILE 11-3b AM) 即 可 应 用 该 过 滤器 。 随 即 出 现 如 图 11-10 所 示 的 窗口 。 
该 图 与 图 11-3b 的 唯一 区 别 是 图 11-10 只 有 3 个 属性 : humidity、windy、play。 此 时 靠近 屏 
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幕 上 方 的 一 排 按钮 中 的 第 五 个 按钮 变 为 可 选 。Undo 会 撤销 过 滤器 的 动作 并 恢复 原来 的 数 
据 集 。 当 用 户 用 不 同 的 过 滤器 做 实验 时 ， 这 个 功能 会 很 有 用 。 

第 一 个 属性 humidity 是 选中 的 ， 面 板 右 侧 给 出 了 对 其 值 做 的 总 结 。 作 为 一 个 数值 型 属 
性 ， 这 里 显示 的 是 它 的 最 小 值 、 最 大 值 、 平 均值 和 标准 差 。 图 11- 10 中 是 一 个 展示 属性 
play 分 布 的 柱状 图 。 不 幸 的 是 ， 这 个 柱状 图 十 分 简单 ， 这 是 由 于 该 属性 取 值 太 少 ， 这 些 值 

人 
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图 11-10 删除 两 个 属性 后 的 天 气 数 据 


11.2.2 训练 和 测试 学 习 方案 


用 户 可 通过 Classify (分 类 ) 面板 来 训练 和 测试 用 于 分 类 或 回归 的 学 习 方 案 。11. 1 节 
讲解 了 如 何 解读 一 个 决策 树 学 习 器 的 输出 结果 ， 给 出 了 由 评估 模块 自动 产生 的 性 能 指数 。 
这 样 的 解读 对 所 有 用 来 预测 属于 某 一 范畴 的 类 的 模型 都 是 一 样 的 。 而 在 评估 数值 预测 的 模 
型 时 ，Weka 产生 的 是 一 组 不 同 的 性 能 衡量 标准 。 

举例 来 说 ， 图 11-11a 中 来 自 表 1-5 的 CPU 性 能 数据 集 已 载 人 Weka。 右 下 角 显 示 的 是 
第 一 个 属性 MYCT 值 的 柱状 图 。 在 图 11-11b 中 ， 进 入 Classify 面板 ， 单 击 左上 方 的 Choose 
按钮 ， 打 开 如 图 11-4a 所 示 的 层次 菜单 中 树 的 选择 部 分 ， 找 到 M5P， 然 后 单 击 Start， 即 可 
将 模型 树 产生 器 M5 ' 选 定 为 分 类 器 。 层 次 结构 可 以 通过 把 具有 共同 功能 性 的 项 目 组 合 起 
来 ， 帮 助 快速 定位 具体 的 分 类 器 。 

图 11-12 给 出 了 输出 结果 。 剪 枝 后 的 模型 树 使 用 了 数据 集 6 个 属性 中 的 3 个 构建 分 支 ， 
树 的 根 结 点 根据 属性 CHMIN 进行 分 裂 ， 然 后 在 左 分 支 的 叶子 部 分 产生 一 个 线性 模型 ， 碳 
边 分 支 也 是 同样 的 结构 。 模 型 树 共 有 5 个 叶子 ， 每 个 叶子 对 应 一 个 线性 模型 。 叶 子 的 圆 括 
号 中 的 第 一 个 数字 表示 到 达 该 叶子 的 实例 个 数 ， 第 二 个 数字 表示 从 该 叶子 的 线性 模型 来 预 
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测 这 些 实例 所 对 应 的 方 均 根 误差 ， 表 示 为 对 整个 训练 数据 集 计 算得 到 类 标 属性 标准 差 的 百 
分 比 形式 。 前 面 给 出 的 是 对 模型 树 的 基本 描述 ， 接 下 来 是 几 个 衡量 其 性 能 的 指标 数据 。 指 
标 来 自 图 11-11b 测试 选项 的 10 折 交 叉 验证 (没有 分 层 ， 因 为 分 层 对 于 数值 预测 毫 无 意 
义 )。5.8 节 ( 见 表 5-8) 解释 了 不 同 指标 的 含义 。 
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图 11-11 使 用 M5' 来 处 理 CPU 性 能 数据 
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普通 线性 回归 ( 见 4.6 节 ) 是 另外 一 种 用 于 数值 预测 的 方案 ， 可 在 图 11-4a 中 的 菜单 
functions 部 分 的 Linear Regression (线性 回归 ) 类 别 下 找到 。 它 只 建立 一 个 单独 的 线性 回归 
模型 而 不 像 图 11-12 中 那样 产生 5 个 。 当 然 ， 这 个 模型 的 性 能 会 稍 差 一 些 。 

为 了 对 它们 的 相关 性 能 有 所 了 解 ， 我 们 可 以 把 它们 所 建立 方案 的 误差 可 视 化 ， 就 像 我 
们 在 图 11-6b 中 对 营 尾 花 数 据 集 所 进行 的 操作 一 样 。 右 击 历史 列表 中 的 项 目 ， 然 后 选择 
Visualize classifier errors ( 可 视 化 分 类 器 误差 ) 得 到 如 图 11-13 所 示 的 2 维 数据 点 阵 。 图 中 
的 点 呈现 不 同 的 颜色 ， 分 别 代 表 不 同 的 类 。 但 对 图 中 的 例子 来 说 ， 因 为 类 是 数值 型 的 ， 所 
以 颜色 变化 是 连续 的 。 在 图 11-13 中 ，x 坐标 轴 选 择 了 属性 MMAX, y 坐标 轴 是 所 选 实 例 
的 数量 ， 这 样 选择 坐标 会 使 这 些 点 的 分 布 较 好 。 每 个 数据 点 都 标示 为 一 个 十 字 又 符 ， 十 字 
叉 符 的 大 小 代表 该 实例 的 误差 的 绝对 值 。 与 图 11-13b 〈 线 性 回归 ) 中 的 十 字 叉 符 相 比较 ， 
图 11-13a (M57) 中 的 十 字 叉 符 尺寸 较 小 ， 这 表明 M5' 更 有 优势 。 


11.2.3 自己 动手 : 用 户 分 类 器 


用 户 分 类 器 (在 3.2 节 的 结尾 部 分 提 到 过 ) 使 用 户 可 以 互动 式 地 建立 他 们 自己 的 分 类 
器 。 用 户 分 类 器 放 在 图 11-4a 中 的 层次 菜单 的 树 的 部 分 ， 在 UserClassifier 的 下 面 。 我 们 用 
一 个 新 问题 来 演示 它 的 操作 ， 根 据 平均 密度 、 色 调 、 尺 寸 、 位 置 和 各 种 简单 结构 特征 等 属 
性 ， 将 视觉 图 像 数 据 划 分 成 如 grass (H), sky (RÆ), foliage (树叶 )、brick (4) 和 
cement (水 泥 ) 几 个 类 。Weka 发 行 配 套 包 提供 一 个 称 为 segment- challenge. arff 的 训练 数据 
文件 。 该 文件 载 人 后 ， 再 选择 用 户 分 类 器 。 在 Classify 面板 上 ， 选 择 一 个 名 为 segment- 
test. arff 的 特别 测试 集 作为 Supplied test set (提供 的 测试 集 ) 用 来 评估 。 当 用 户 必 须 每 次 
手动 构建 分 类 器 时 ， 用 交叉 验证 来 评估 就 不 可 行 了 。 

单 击 Start 后 ， 一 个 新 窗口 出 现 ， 此 时 Weka 等 待 用 户 建 立 分 类 器 。Tree Visualizer (8j 
可 视 化 器 ) 和 Data Visualizer (数据 可 视 化 器 ) 标签 可 以 在 不 同 的 查看 方式 间 切 换 。 前 者 
显示 分 类 树 的 当前 状态 ， 每 个 结 点 给 出 了 该 结 点 上 属于 每 一 类 的 实例 数 。 其 目的 是 为 了 得 
到 一 个 叶子 结 点 越 纯 越 好 的 树 。 最 初 ， 当 然 只 有 一 个 根 结 点 ， 所 有 数据 都 包含 在 根 结 点 
中 。 然 后 切换 到 Data Visualizer 生成 一 个 分 裂 。 这 样 就 得 到 我 们 在 图 11-6b PANS Fé db 
数据 集 和 图 11-13 中 通过 CPU 性 能 数据 看 到 的 同样 的 2 维 点 阵 。 与 前 面 一 样 ， 分 别 为 和 
Y 坐标 选择 属性 。 这 里 ， 用 来 挑选 的 标准 是 找 出 一 个 能 使 类 与 类 分 离 得 尽 可 能 清楚 的 和 
Y 的 组 合 。 图 11-14a 给 出 了 一 个 好 选择 : region- centroid-row (区 域 -质心 - 行 ) 作为 X， 
intensity-mean (强度 -平均 值 ) 作为 了 

找 出 一 个 好 的 分 离 后 ， 用 户 必 须 在 图 表 中 指定 一 个 区 域 。 在 y BOE PERE ROTA PSE 
单 中 可 找到 4 个 工具 。Select Instance (选择 实例 ) 确认 一 个 具体 的 实例 。Rectangle (4E 
形 ， 见 图 11-14a) 使 用 户 可 以 在 图 表 上 拖 出 一 个 矩形 。 利 用 Polygon 和 Polyline ( 多边 形 和 
多 边线 ) ， 用 户 可 构建 任意 形状 的 多 边 形 或 画 出 任意 形状 的 多 边线 ( 单 击 添加 一 个 角 的 顶 
点 ， 右 击 完成 操作 ) 。 一 个 区 域 一旦 被 选 定 ， 就 变 成 灰色 。 在 图 11-14a 中 ， 用 户 定义 了 一 
个 矩形 。Submit 按钮 在 树 中 创建 两 个 新 结 点 ， 一 个 结 点 含有 那些 选 定 的 实例 ， 另 外 一 个 包 
含 全 部 其 余 的 实例 。Clear 会 清除 所 做 的 选择 ; Save 将 当前 树 结 点 上 的 实例 以 ARFF 文件 


422 
1 


424 


425 
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的 方式 存储 起 来 。 


Run information = 


Scheme : weka.classifiers.trees.M5P -M 4.0 
Relation: cpu 

Instances: 209 

Attributes: 


Test mode: 10-fold cross-validation 
Classifier model (full training set) --- 


M5 pruned model tree: 
(using smoothed linear models) 


CHMIN <= 7.5 : LM1 (165/12.903$) 

CHMIN » 7.5 : 

| MMAX «- 28000 : 

| MMAX «- 13240 : 

| | CACH <= 81.5 : LM2 (6/18.551%) 
| | CACH > 81.5 : LM3 (4/30.824%) 
| MMAX > 13240 : LM4 (11/24.185%) 

| MMAX > 28000 : LMS (23/48.302%) 


LM num: 1 
class = -0.0055 * MYCT + 0.0013 * MMIN + 0.0029 * MMAX 
+ 0.4015 * CHMAX + 11.0971 


2 
-1.0307 * MYCT + 0.0086 * MMIN + 0.0031 * MMAX 
- 2.4503 * CHMIN 1.1597 * CHMAX + 70.8672 


3 
-1.1057 * MYCT + 0.0086 * MMIN + 0.0031 * MMAX 
- 2.4503 * CHMIN 1.1597 * CHMAX + 83.0016 


4 
-0.8813 * MYCT + 0.0086 * MMIN + 0.0031 * MMAX 
- 2.3561 * CHMIN 1.1597 * CHMAX + 82.5725 
LM num: 5 
class = -0.4882 * MYCT + 0.0218 * MMIN + 0.003 * MMAX + 0.3865 * CACH 
- 1.3252 * CHMIN 3.3671 * CHMAX - 51.8474 
Number of Rules : 5 


Time taken to build model: 0.56 seconds 


- Cross-validation --- 
- Summary --- 


Correlation coefficient 
Mean absolute error 

Root mean squared error 
Relative absolute error 
Root relative squared error 
Total Number of Instances 





PA 11-12 ”M5' 程 序 的 数值 型 预测 输出 


此 时 ，Tree Visualizer 在 图 11-14b 中 显示 了 所 构建 的 树 。 其 中 一 个 结 点 ( 左 结 点 ) 对 
类 sky 来 说 是 纯 的 ， 但 另 一 个 〈 右 结 点 ) 则 是 混合 结 点 ， 需 要 进一步 分 裂 。 单 击 不 同 的 结 


#%11% Explorer 界 面 303 





点 ， 则 整个 数据 集中 与 该 结 点 相关 联 的 子 集 就 会 被 Tree Visualizer 可 视 化 。 继 续 增 加 结 点 ， 
直到 用 户 对 所 得 结果 满意 ， 即 几乎 所 有 结 点 都 是 纯 的 为 止 。 然 后 在 Tree Visualizer 的 空白 
处 右 击 ， 选 择 Accept the Tree (接受 此 树 ) Weka 用 测试 集 评估 用 户 的 树 并 输出 性 能 统计 
数据 (对 于 所 举例 子 ，90% 的 结果 是 好 的 ) 。 
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b) 来 自 线性 回归 
图 11-13 可视化 误差 426 


使 用 手动 方式 构建 树 非常 繁琐 。 但 Weka 可 以 在 任何 结 点 下 构建 子 树 ， 从 而 替 用 户 完 
成 作业 ， 只 需 右 击 该 结 点 即 可 。 


304 第 三 部 分 Weka 数据 控 握 平台 





— 1 Tree Visualizer — Data Visualizer | 





f X: region-centroid-row (Num) +) ÜYrintensity-mean (Num) :$3 
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a) 数据 


ff thy tm 


{ Tree Visualizer ^ Data Visualizer | —— 


Tree View 





True False 


b) 树 可 视 化 器 
图 11-14 在 划分 过 的 数据 上 运行 用 户 分 类 器 


11.2.4 使 用 元 学 习 器 


TOF Tas ( 见 第 8 章 ) 可 将 简单 的 分 类 器 变 成 功能 更 强大 的 学 习 器 。 例 如 ， 为 了 优化 
Explorer 中 的 决策 柱 ， 用 户 可 以 打开 Classify 面板 ， 在 层次 菜单 的 meta 部 分 选择 AdaboostM1 
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分 类 器 。 当 用 户 双 击 该 分 类 器 对 其 进行 设置 时 ， B 11-15 "quac NES. 这 
个 分 类 器 有 自己 的 分 类 器 域 ， 我 们 设 为 Deci- M — — 
sionStump ( 见 图 11-15) 。 这 个 域 设 定 法 本 身 ， EEIEIEE 
也 可 以 通过 双击 的 方式 进行 设置 (本 例 是 个 例 p E 
外 ，DecisionStump 碰巧 没有 可 编辑 的 属性 )。 


单 击 OK 回 到 Classify 主 面板 ， 单 击 Start 可 尝试 | classifier ( Choose ) DecisionStump = " 

将 决策 桩 的 性 能 提升 至 最 高 10 倍 。 最 终 的 结果 | a Lee 
EBEJER 150 个 实例 中 只 有 7 个 被 错误 | numiterations 10 

标志 。 考 虑 到 这 仅仅 是 一 个 初级 决策 柱 以 及 如 0 m0 n 


此 少 的 提升 循环 次 数 ， 它 的 性 能 的 确 不 错 。 。 e 


| weightThreshold |100 


11.2.5 育 类 和 关联 规则 | Com C m) Cr I (Come o 























通过 Cluster 和 Associate 面板 调用 聚 类 算 11-15 配置 一 个 元 学 习 器 用 于 提升 决策 桩 
ik 〈 见 6.8 节 )， 启 动用 于 寻找 关联 规则 的 方法 ( 见 4.5 节 )。 在 对 数据 集 进行 聚 类 时 ， 
Weka 会 显示 聚 类 的 数量 和 每 个 聚 类 所 含 的 实例 数 。 对 某 些 算法 来 说 ， 聚 类 的 数量 可 在 对 
象 编 辑 器 中 通过 设 定 参 数 的 方式 指定 。 如 果 使 用 的 是 概率 性 聚 类 方式 ， 那 么 Weka 测量 的 
是 对 应 训练 数据 的 聚 类 的 对 数 似 然 : 这 个 对 数 似 然 越 大 ， 说 明 所 建立 的 模型 与 数据 拟 合 得 
越 好 。 一 般 来 说 增加 聚 类 的 数量 会 增加 对 数 似 然 ， 但 会 导致 过 度 拟 合 。 

Cluster 面板 上 的 操纵 元 件 与 Classify 面板 上 的 相似 。 用 户 可 指定 一 些 同样 的 评估 方法 : 
使 用 训练 集 、 提 供 测 试 集 、 百 分 比分 裂 (后 两 项 用 于 对 数 似 然 )。 更 进一步 的 方法 就 是 类 
对 应 聚 类 评估 ， 它 比较 的 是 所 选 定 的 聚 类 与 数据 中 预先 指定 的 类 的 匹配 程度 的 好 坏 。 用 户 
选择 一 个 属性 作为 “正确 ”的 类 (必须 是 名 目 型 的 ) 。 对 数据 进行 聚 类 后 ，Weka 将 确定 
每 个 聚 类 中 的 多 数 类 ， 同 时 给 出 一 个 混淆 矩阵 来 表明 如 果 使 用 聚 类 而 不 是 用 正确 的 类 会 有 
多 少 错误 。 如 果 数 据 集中 有 一 个 属性 是 类 属性 ， 则 用 户 可 在 聚 类 的 过 程 中 通过 在 一 个 含有 
这 些 属 性 的 下 拉 菜单 中 将 其 选 定 的 方式 忽略 ， 然 后 观察 这 些 聚 类 与 实际 类 值 的 对 应 程度 。 
最 后 ， 用 户 可 选择 是 否 将 这 些 聚 类 存储 起 来 用 于 可 视 化 。 选 择 不 存储 的 唯一 理由 是 为 了 节 
省 空间 。 对 于 分 类 器 来 说 ， 右 击 结果 列表 使 其 可 视 化 的 好 处 是 用 户 可 查看 类 似 于 图 11-6b 
中 的 2 维 散 点 图 。 如 果 用 户 决 定 使 用 类 对 应 聚 类 的 评估 ， 类 的 指定 误差 也 会 列 出 来 。 对 于 
Cobweb 聚 类 方案 ， 用 户 也 可 以 将 树 可 视 化 。 

Associate 面板 比 Classify 或 Cluster 面板 简单 。Weka 中 有 6 种 算法 可 用 来 决定 关联 规 
则 ,但 没有 方法 评估 这 些 规则 。 图 11-16 给 出 了 利用 Apriori 程序 从 天 气 数 据 的 名 目 型 版 本 


. Outlook=overcast 4 ==> play-yes 4 conf: (1) 

. temperature=cool 4 ==> humidity=normal 4 conf: (L) 

. humidity=normal windy=FALSE 4 ==> play=yes 4 conf: (1) 

。 outlook=sunny play=no 3 ==> humidity=high 3 conf: (1) 

. outlook=sunny humidity=high 3 ==> play=no 3 conf: (1) 

- outlook-rainy play-yes 3 ==> windy=FALSE 3 conf: (1) 

. outlook-rainy windy=FALSE 3 ==> play-yes 3 conf: (1) 

. temperature=cool play=yes 3 ==> humidity=normal 3 conf: (1) 

. outlook=sunny temperature=hot 2 ==> humidity=high 2 conf: (1) 
10. temperature=hot play=no 2 ==> outlook=sunny 2 conf: (1) 


1 
2 
3 
4 
5 
6 
7 
8 
9 





图 11-16  Apriori 程序 的 关联 规则 输出 结果 
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中 寻找 关联 规则 〈 见 4.5 节 所 描述 的 ) 的 输出 结果 。 尽 管 数据 比较 简单 ， 但 还 是 找到 了 一 
些 规则 。 箭 头 前 面 的 数字 表示 的 是 箭头 前 面 的 前 件 为 真 的 实例 数 ， 箭 头 后 面 的 数字 代表 箭 
头 后 面 的 后 件 也 为 真 的 实例 数 ; 置信 度 GES PH) 是 二 者 的 比 。 在 默认 的 条 件 下 ， 共 发 
现 了 10 条 规则 : 用 户 可 通过 对 象 编辑 器 修改 numRules 从 而 得 到 更 多 规则 。 





1 1. 2. 6 属性 选择 — — Eck] | a a = = — 5 MESSER 
有 几 种 属性 选择 的 方法 可 通过 Se- | | | 


lect attributes (选择 属性 ) 面板 实现 。 ga [o ai P | n E | | h 
正如 在 7.1 节 中 所 解释 的 ， 这 会 涉及 一 | | 3 i 
个 属性 评估 器 和 一 个 搜索 方法 。 二 者 都 


是 通过 一 般 途 径 选 定 ， 且 在 对 象 编辑 器 - [ 

中 设置 。 用 户 还 必须 决定 哪个 属性 作为 77 : | | | 
类 属性 。 属 性 选择 可 以 通过 整个 训练 集 | 
或 通过 交叉 验证 做 出 。 在 后 一 种 情况 下 一 | dE Lo. | 
每 折 的 交叉 验证 是 分 开 完成 的 ,并 目 输 i LE Us 


出 结果 会 显示 出 每 个 属性 被 选中 了 多 少 
次 ， 即 折 的 数量 。 所 得 结果 存储 在 历史 
列表 中 。 当 用 户 右 击 历史 列表 中 的 条 目 
时 ， 可 将 与 被 选中 的 属性 相对 应 的 数据 

集 可 视 化 (选择 Visualize reduced data) 。 a 








11.2.7 可 视 化 








Visualize (可 视 化 ) 面板 可 帮助 用 ， 
户 可 视 化 一 个 数据 集 ， 这 里 指 的 不 是 一 … 
次 分 类 或 一 个 聚 类 模型 的 结果 ， 而 是 数 
据 集 本 身 。 它 显示 的 是 每 对 属性 的 一 个 
2 维 散 点 图 。 图 11-17a 25:8 T EFE REP 
据 集 的 可 视 化 结果 。 用 户 选 择 一 个 属性 ， 
通常 是 所 选 定 的 类 属性 ， 用 面板 底部 的 ， 
控制 元 件 为 代表 数据 的 点 加 上 颜色 。 如 ， 
果 属 性 是 名 目 型 的 ， 则 颜色 是 离散 的 ; 
如 果 是 数值 型 的 ， 则 色谱 从 蓝 色 ( 较 小 
E EE (RAK) 呈 连 续 分 布 。 没 S 
有 类 值 的 数据 点 用 黑色 表示 。 用 户 可 改 
变 每 个 点 阵 的 大 小 和 点 阵 中 点 的 大 小 ， cem 
以 及 拌 动 度 。 拌 动 是 应 用 于 处 和 YY 坐标 
值 的 随机 位 移 ， 目 的 是 使 互相 重 释 的 点 
分 开 。 如 果 没 有 抖动 ， 位 于 同一 个 数据 图 11-17 高 尾 花 数据 集 的 可 视 化 
点 上 的 上 千 个 实例 看 起 来 就 像 一 个 。 用 户 可 选择 一 定 的 属性 来 减 小 这 个 点 图 矩阵 的 尺寸 ， 并 





b) 


$113 Explorer 界 面 307 





对 数据 进行 二 次 抽样 以 提高 效率 。 在 面板 上 所 做 的 改动 只 有 单 击 Update 按钮 后 才能 生效 。 

单 击 和 矩阵 中 的 任何 一 个 散 点 图 使 其 放大 。 例 如 ， 单 击 左上 角 的 点 图 得 到 如 图 11-17b 
所 示 的 面板 。 用 户 可 放大 该 面板 中 的 任何 区 域 ， 方 法 是 在 右上 方 的 菜单 中 选择 Rectangle, 
并 按照 图 中 显示 的 那样 拉 出 一 个 矩形 。 左 上 方 的 Submit (提交 ) 按钮 会 按照 比例 在 查看 区 
域 中 重新 调整 这 个 矩形 框 。 


11.3 过滤 算法 


现在 我 们 来 深入 探讨 Weka 中 实现 的 各 种 过 滤 算 法 。 第 12、13 章 中 描述 的 Explor er, Kno 
wledge Flow 和 Explorer 界面 中 都 可 以 运行 这 些 算法 。 所 有 过 滤器 都 会 对 输入 的 数据 集 进行 特定 
的 转换 。 当 某 种 过 滤器 通过 Choose 按钮 被 选中 时 ， 它 的 名 字 就 会 出 现在 按钮 旁边 的 横 栏 中 。 单 
击 这 个 横 栏 ， 弹 出 一 个 通用 对 象 编辑 器 确定 该 横 栏 的 属性 。 横 栏 中 出 现 的 是 该 过 滤器 的 命令 行 
版 本 ， 减 号 后 面 的 字母 指定 该 过 滤器 的 参数 。 这 是 一 个 学 习 如 何 直接 使 用 Weka 命令 的 好 方法 。 

过 滤器 有 两 种 : 有 监督 的 和 无 监督 的 ( 见 7.2 节 )。 这 个 看 似 不 经 意 的 区 别 实际 上 掩盖 
了 一 个 基本 问题 。 通 常 过 滤器 先 应 用 于 训练 数据 集 ， 再 应 用 于 测试 文件 。 如 果 过 滤器 是 有 监 
督 的 ， 比 方 说 ， 假 如 它 使 用 类 值 以 取得 好 的 离散 化 区 间 ， 那 么 将 该 过 滤器 应 用 于 测试 数据 时 就 
会 对 结果 造成 偏差 。 应 用 于 测试 数据 的 必须 是 由 训练 数据 取得 的 离散 化 区 间 。 当 使 用 有 监督 过 
滤器 时 ， 用 户 必须 确保 结果 的 评估 是 公正 的 ， 而 使 用 无 监督 过 滤器 则 不 存在 这 样 的 问题 。 

我 们 将 分 别 探讨 Weka 的 有 监督 与 无 监督 过 滤 法 。 在 每 一 种 过 滤 法 中 ， 又 可 进一步 区 
分 为 用 于 数据 集中 属性 的 属性 过 滤器 和 用 于 实例 的 实例 过 滤器 。 为 了 进一步 了 解 具体 的 过 
滤器 ， 在 Weka 的 Explorer 中 将 其 选中 ， 并 研究 与 其 相关 联 的 对 象 编辑 器 ， 定 义 过 滤器 的 
功能 及 各 种 参数 。 


11.3.1 无 监督 属性 过 滤器 
表 11-1 列 出 了 Weka 的 无 监督 过 滤器 。 其 中 的 很 多 选项 在 第 7 章 中 已 做 过 介绍 。 
表 11-1 无 监督 属性 过 滤器 
名 称 功能 





Add 

AddCluster 
AddExpression 
AddID 

AddNoise 
AddValues 

Center 
ChangeDateFormat 
ClassAssigner 
ClusterMembership 
Copy 


Discertize 


FirstOrder 
InterquartileRange 
KernelFitler 


添加 一 个 新 属性 ， 属 性 的 值 标记 为 缺失 

添加 一 个 新 的 名 目 属 性 ， 该 属性 表示 根据 给 定 聚 类 算法 每 个 实例 所 分 配 的 聚 类 

通过 将 一 个 指定 的 数学 函数 应 用 到 现 有 属性 ， 生 成 一 个 新 的 属性 

为 数据 集中 的 每 个 实例 添加 一 个 具有 唯一 的 属性 

修改 给 定名 目 属性 值 的 百分比 

若 属性 的 标签 缺失 ， 则 为 其 添加 来 自用 户 应 用 列表 的 标签 。 标 签 可 随意 排序 

将 给 定数 据 集 的 所 有 数值 型 属性 进行 聚集 ， 使 其 均值 为 0 (设置 为 类 标 属性 的 不 进行 此 操作 ) 
修改 用 于 确定 日 期 属性 格式 的 字符 串 

设置 或 取消 设置 类 标 属性 

使 用 一 个 聚 类 来 产生 聚 类 成 分 值 ， 用 这 些 值 生成 新 属性 

复制 数据 集中 一 系列 属性 

将 数值 型 属性 转变 为 名 目 属性 : 指定 属性 范围 、 分 箱 的 个 数 、 是 否 对 分 箱 个 数 进行 优化 、 


输出 二 分 属性 、 使 用 等 宽 (默认 ) 或 者 等 频 度 的 分 箱 


将 一 个 一 阶 差分 操作 器 应 用 到 一 系列 数值 型 属性 上 
创建 表示 异常 点 和 极 值 的 新 属性 。 四 分 位 距 决 定 了 异常 以 及 极 值 的 组 成 
为 数据 集 产生 一 个 核 矩 阵 。 新 数据 集 为 原 数据 集中 的 每 个 实例 保存 一 个 属性 和 一 个 实例 。 


核 函 数 的 评估 分 别 在 问题 中 的 实例 以 及 与 每 个 属性 相关 的 原 有 实例 上 进行 ， 新 数据 集 实例 的 
属性 值 保存 了 这 些 评估 结果 
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名 称 


(2) 
功能 








Makelndicator 


MathExpression 
MergeTwoValues 
MultiInstanceToPro- 
positional 
NominalToBinary 
NominalToString 
Normalize 
NumericCleaner 
NumericToBinary 
NumericToNominal 
NumericTransform 
Obfuscate 
PartitionedMultiFilter 


PKIDiscretize 
PrincipalComponents 
PropositionalToMul- 
tilnstance 
RandomProjection 
RandomSubset 
RELAGGS 
Remove 
RemoveType 
RemoveUseless 
Reorder 
ReplaceMissing Values 
Standardize 
StringToNorminal 
StringToWordVector 


SwapValues 
TimeSeriesDelta 
TimeSeriesTranslate 


Wavelet 


用 一 个 布尔 型 属性 替换 一 个 名 目 属性 。 对 一 部 分 属性 值 赋值 为 1， 否则 赋值 为 0。 默 认 时 ， 


布尔 型 属性 作为 数值 型 编码 


类 似 于 AddExpression， 区 别 是 在 原 位 置 修改 已 有 属性 而 不 是 新 建 属性 
合并 两 个 给 定 属性 的 值 : 指定 两 个 待 合并 值 的 指数 
通过 给 出 每 个 实例 的 袋 类 标 值 并 任意 设 定 其 权重 ,将 一 个 多 实例 数据 集 转换 为 一 个 单 实例 


数据 集 


将 一 个 名 目 属性 转变 成 若干 个 二 值 属 性 ， 每 个 属性 对 应 一 个 值 

将 名 目 属性 转变 成 字符 类 型 的 属性 

将 数据 集中 所 有 数值 型 的 值 范围 按 比 例 变换 到 区 间 [0, 1] 

对 太 小 、 太 大 ， 或 者 与 特定 值 太 近 的 值 ， 使 用 用 户 设 定 默认 值 替 换 

将 所 有 的 数值 型 属性 转化 为 二 值 型 的 : 非 零 值 为 1 

通过 往 名 目 属性 中 为 数值 型 属性 简单 地 添加 观测 值 ， 将 数值 型 属性 转换 成 名 目 属性 

使 用 一 个 Java 函数 对 数值 型 属性 进行 转变 

通过 对 关系 、 所 有 属性 名 、 名 目 和 字符 串 类 型 属性 值 进 行 重 命名 ， 增 加 数据 集 处 理 难 度 
一 个 元 过 滤器 ， 该 过 滤器 将 一 系列 过 滤器 应 用 到 相关 属性 集合 上 ， 并 且 将 输出 整合 到 一 个 


新 的 数据 集 


使 用 等 频率 分 箱 法 将 数值 型 属性 离散 化 ， 箱 的 个 数 等 于 取 值 个 数 的 平方 根 (包括 缺失 的 值 ) 
对 输入 数据 进行 主 成 分 分 析 及 转变 
使 用 关系 属性 将 一 个 单 实例 数据 集 (有 一 个 袋 标识 的 属性 ) 转变 为 多 实例 形式 


使 用 一 个 随机 和 矩阵 将 数据 映射 到 一 个 低 维 子 空间 

创建 一 个 新 的 数据 集 ， 数 据 集中 包含 的 属性 按 一 定 百分比 随机 选择 得 到 
使 用 RELAGGS 算法 将 多 实例 数据 转化 成 单 实例 形式 

删除 属性 

删除 给 定 类 型 的 属性 (名目 型 、 数 值 型 、 字 符 串 类 型 、 字 符 串 或 日 期 型 ) 
删除 常量 属性 以 及 与 其 他 实例 差异 太 大 的 名 目 属性 

改变 属性 顺序 

用 训练 数据 中 的 模式 和 均值 将 所 有 缺失 属性 替换 名 目 型 以 及 数值 型 属性 
将 所 有 数值 型 标准 化 ， 使 其 均值 与 单位 方差 均 为 0 

将 一 个 字符 型 的 属性 转化 成 名 目 属 性 

将 一 个 字符 型 属性 转化 成 一 个 向 量 ， 该 向 量 表示 词 的 出 现 频次 ， 用 户 可 以 选择 定 界 符 ( de- 


limiter) ， 可 供 选择 的 选项 较 多 


将 一 个 属性 的 两 个 值 对 调 

将 当前 实例 的 属性 值 蔡 换 为 该 值 与 一 段 时 间 之 前 或 之 后 相应 实例 的 差 值 
将 当前 实例 的 属性 值 蔡 换 为 一 段 时 间 之 前 或 之 后 的 相应 值 

执行 哈 尔 (Haar) 小 波 变 换 


添加 和 删除 属性 


Add 往 指 定位 置 插入 一 个 属性 ， 该 属性 的 值 已 声明 对 所 有 实例 丝 为 缺失 。 使 用 通用 对 
象 编辑 器 确定 属性 的 名 字 ， 在 编辑 器 中 会 出 现 属性 列表 及 可 能 的 取 值 (对 名 目 属性 来 说 ) , 
用 户 还 可 以 指定 数据 属性 的 数据 格式 。Copy 复制 现 有 的 属性 ， 用 户 在 实验 中 使 用 重 写 属 
性 值 的 过 滤器 时 可 以 将 这 些 属性 值 保 存 下 来 。 利 用 一 个 表达 式 可 将 多 个 属性 一 起 复制 ， 例 
如 ，1-3 指 前 三 个 属性 ， 或 者 first-3，5，9-last 指 属性 1, 2, 3, 5, 9, 10, 11, 12, =% 
这 些 选 项 也 可 表示 相反 的 含义 ， 即 只 对 那些 未 在 表达 式 中 指明 的 属性 起 作用 。 很 多 过 滤器 
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都 具备 这 些 特性 。 

AddID 用 于 往 用 户 指定 索引 的 属性 列表 里 插入 一 个 数值 型 的 标识 符 属性 。 标 识 符 属性 
可 以 用 于 在 数据 集 经 过 多 种 处 理 操 作 后 对 每 个 实例 进行 追踪 ， 例 如 被 其 他 过 滤器 转换 或 者 
对 实例 进行 随机 排序 。 

Remove 前 面 已 讨论 过 。 类 似 的 过 滤器 有 RemoveType， 删 除 某 指定 种 类 (名 目 型 、 
数值 型 、 字 符 串 ， 或 日 期 ) 的 所 有 属性 ; RemoveUseless， 删 除 常 量 属性 和 那些 对 几乎 所 
有 实例 来 说 与 其 他 大 部 分 实例 差异 太 大 的 名 目 属性 。 用 户 可 通过 指定 不 相同 值 的 个 数 作 
为 取 值 总 数 的 百分比 来 决定 允许 偏差 ， 并 以 此 决定 是 否 删除 该 属性 。 注 意 ， 如 果 Prepro- 
cess 面板 上 的 菜单 用 来 设 定 一 个 类 属性 (默认 情况 下 ， 最 后 一 个 属性 是 类 标 属性 )， 那 
么 某 些 无 监督 属性 过 滤器 的 形 为 不 同 。 例 如 ，RemoveType 和 RemoveUseless 都 会 跳 过 类 
属性 。 

InterquartileRange 添加 新 属性 ， 这 些 属性 用 于 表示 实例 的 值 是 否 为 异常 点 或 极 值 。 异 
常 点 和 极 值 的 定义 基于 属性 值 的 第 25 个 和 第 75 个 分 位 点 。 若 实例 值 的 用 户 指定 极 值 因 子 
与 四 分 位 差 的 乘积 超过 了 第 75 个 分 位 点 (或 者 低 于 第 25 个 分 位 点 ) ， 则 将 该 实例 值 记 为 
极 值 。 非 极 值 的 属性 值 ， 若 其 异常 因子 与 四 分 位 差 的 乘积 超过 了 第 75 个 分 位 点 (或 者 低 
于 第 25 个 分 位 点 ) ， 则 将 该 值 记 为 异常 点 。 可 以 对 过 滤器 进行 配置 ， 对 那些 存在 被 认为 是 
极 值 或 异常 点 属性 值 的 实例 ， 让 过 滤器 将 实例 标记 为 极 值 或 者 异常 ， 或 者 为 每 个 属性 产生 
一 个 异常 - 极 值 指示 器 组 。 当 然 ， 用户 还 可 以 将 所 有 极 值 标 记 为 异常 ， 同 时 输出 这 些 属 
性 ， 其 属性 值 为 原 属 性 值 与 中 值 之 差 的 绝对 值 除 以 四 分 位 距 。 

AddCluster 用 于 在 过 滤 前 将 一 种 聚 类 算法 应 用 于 数据 。 用 户 通 过 对 象 编辑 器 选择 聚 类 
算法 。 聚 类 器 的 设置 方式 与 过 滤器 一 样 ( 见 11.6 17), AddCluster 对 象 编辑 器 本 身 就 包含 
用 于 聚 类 的 Choose 按钮 ， 用 户 可 通过 单 击 按钮 旁 的 横 栏 得 到 另 一 个 对 象 编辑 器 ， 并 在 其 
面板 上 对 该 聚 类 器 进行 配置 ， 该 面板 必须 填写 完整 后 才能 回 到 AddCluster 对 象 编辑 器 。 比 
起 在 书 中 阅读 这 些 说 明 ， 也 许 用 户 在 实践 中 亲手 操作 一 遍 会 更 容易 理解 。 不 论 怎样 ， 一 旦 
用 户 选 定 一 个 聚 类 器 ，AddCluster 会 用 它 来 为 每 个 实例 指定 一 个 聚 类 的 号 码 ， 作 为 该 实例 
的 一 个 新 属性 。 当 用 户 对 数据 进行 聚 类 时 ， 对 象 编 辑 器 还 允许 用 户 忽 略 一 些 属性 ， 如 前 面 
谈 到 Copy 时 所 描述 过 的 。 我 们 在 描述 过 滤器 对 象 编辑 器 时 也 探讨 过 ，ClusterMembership 
利用 聚 类 器 产生 成 分 值 。 对 每 个 实例 来 说 ， 都 有 一 个 以 这 些 成 分 值 为 属性 的 新 版 本 实例 生 
成 。 如 果 设 定 了 类 属性 ， 则 聚 类 过 程 中 将 它 忽略 。 

AddExpression 通过 将 一 个 数学 函数 应 用 于 数值 型 属性 而 生成 一 个 新 的 属性 。 表 达 式 可 
SA: 属性 参照 和 常量 ; 四 则 运算 符 +、-、*、/ 和“^; 函数 log 和 exp, abs 和 sqrt, 
floor, ceil fil rint ^, sin, cos 和 tan; 括号 。 属 性 是 通过 加 前 级 a 确定 的 ， 例 如 a7 指 第 7 
个 属性 。 下 面 是 一 个 表达 式 范 例 

al42*a5/log(a7 *4.0) 

有 一 个 调试 选项 可 用 来 将 新 属性 的 值 替换 成 提供 的 表达 式 的 后 缀 解析 式 。 

MathExpression 类 似 于 AddExpression， 可 以 应 用 到 多 属性 上 。 它 并 不 会 创建 新 属性 ， 
而 是 在 原 处 用 表达 式 的 值 来 替换 原来 的 值 。 鉴 于 此 ， 表 达 式 不 能 参照 其 他 属性 的 值 。 所 有 
应 用 到 AddExpression 的 运算 符 都 可 以 使 用 ， 处 理 属性 的 最 小 化 、 最 大 化 、 求 均值 、 求 和 、 





O rint 函数 返回 最 接近 的 整数 。 
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和 的 平方 以 及 标准 差 等 也 是 可 用 的 。 此 外 ,包含 了 运算 符 以 及 函数 的 简单 让 then-else 表达 
式 也 是 可 以 应 用 的 。 

AddExpression 和 MathExpression 都 应 用 了 文本 框 形 式 指定 的 数学 函数 ， 而 Numeric- 
Transform 所 做 的 是 通过 应 用 一 个 给 定 的 Java. 函数 对 选 定 的 数值 型 属性 进行 任意 转换 。 任 
何 函 数 都 可 以 ， 只 要 它 以 一 个 double 〈 双 精度 浮 点 数 ) 为 参数 并 返回 另 一 个 double， 例 
JH, java. lang. Math 中 的 sqrt() 。 其 中 一 个 参数 是 Java 中 类 的 名 字 ， 该 类 中 实现 了 这 个 函 
数 (必须 是 完全 符合 规范 的 名 字 ) ; 另 一 个 参数 是 转换 方法 本 身 的 名 字 。 

Normalize 将 数据 集中 所 有 数值 型 的 值 按 比 例 转换 到 0 ~ 1 之 间 。 经 过 规范 化 的 值 还 可 
以 进一步 根据 用 户 指定 的 常量 按 比 例 转 换 。Center 和 Standardize 将 这 些 值 转换 成 零 均 值 。 
Standardize 还 会 给 出 单位 方差 。 者 设置 类 标 属 性 ， 则 以 上 三 者 都 会 跳 过 。RandomSubset 随 
机 地 选择 一 个 属性 子 集 ， 子 集 包含 在 输出 中 ， 子 集 大 小 由 用 户 指 定 (属性 个 数 的 百分比 )。 
若 设置 了 类 标 属 性 ， 一 般 会 包括 在 内 。 

PartitionedMultiFilter 是 一 种 特殊 的 过 滤器 ， 它 将 一 个 过 滤器 集合 应 用 到 一 个 输入 数据 
集 的 相应 属性 集合 。 用 户 提供 并 配置 每 个 过 滤器 ， 然 后 为 过 滤器 设 定 作 用 的 属性 范围 。 有 
一 个 选项 用 于 删除 不 在 任何 属性 范围 里 的 属性 。 只 有 作用 于 属性 上 的 过 滤器 才 是 允许 的 。 
单个 过 滤器 的 输出 将 整合 到 一 个 新 数据 集中 。Reorder 改变 数据 中 属性 的 顺序 。 通 过 省 略 
或 复制 指数 ， 就 能 实现 属性 删除 或 对 其 复制 多 个 副本 。 

修改 值 

SwapValues 将 一 个 名 目 属性 两 个 值 的 位 置 进行 对 换 。 两 个 值 的 先后 顺序 完全 是 表面 
的 ， 对 学 习 毫 无 影响 ， 但 是 ， 如 果 类 属性 被 选中 ， 则 改变 顺序 会 影响 混淆 矩阵 的 布局 。 
MergeTwoValues 将 一 个 名 目 属性 的 两 个 值 合 并 为 一 个 单独 的 类 别 。 新 值 的 名 字 由 原来 的 两 
个 值 串 接 而 成 ， 且 所 有 出 现 原来 的 两 个 值 的 地 方 都 替换 成 新 值 。 新 值 的 索引 是 原来 的 两 个 
值 的 索引 中 较 小 的 一 个 。 例 如 ， 如 果 用 户 合并 天 气 数据 中 属性 outlook 的 前 两 个 值 ， 其 中 
共有 5 个 sunny, 4 个 overcast 和 5 个 rainy 实例 ， 新 的 outlook 属性 的 值 则 变 成 sunny_over- 
cast 和 rainy， 并 将 有 9 个 sunny_overcast 实例 再 加 上 原来 的 5 个 rainy 实例 。 

处 理 缺 失 值 的 一 个 办 法 是 在 应 用 学 习 方案 前 将 它们 全 面 替 换 。ReplaceMissingValues 将 
每 个 缺失 值 蔡 换 成 数值 型 属性 值 的 平均 值 和 名 目 属 性 值 的 众 数 。 设 为 类 标 属 性 的 缺失 值 ， 
默认 不 做 任何 替换 ， 当 然 也 可 以 更 改 默认 设置 。 

NumericCleaner 将 太 小 、 太 大 或 者 与 指定 值 太 近 的 数值 型 值 蔡 换 为 默认 值 。 上 面 的 各 
种 情况 ， 均 可 更 改 默认 设置 ， 同 时 也 可 以 修改 定义 太 大 、 太 小 、 与 某 值 太 接近 的 阔 值 。 

AddValues 可 以 添加 任何 未 从 用 户 提供 的 列表 里 表示 为 名 目 属 性 的 值 。 标 签 可 以 任意 
排序 。ClassAssigner 可 以 用 于 设置 或 者 取消 设置 数据 集 的 类 属性 。 用 户 提供 新 类 标 属 性 的 
指数 ; 0 值 则 取消 设置 类 标 属 性 。 

转换 

很 多 过 滤器 把 属性 从 一 种 形式 转换 成 另外 一 种 。Diseretize 使 用 等 宽 或 等 频 区 间 装 箱 法 
( 见 7.2 45) 将 一 定 范围 的 数值 属性 进行 离散 化 ， 按 一 般 方式 进行 属性 指定 。 对 前 一 种 方 
法 来 说 ， 装 箱 的 数量 可 以 指定 ， 也 可 以 通过 使 用 留 一 交叉 验证 使 似 然 最 大 化 的 方式 来 自动 
选 定 。 还 可 以 创建 多 个 二 值 属性 而 不 是 一 个 多 值 属性 。 对 于 等 频 离 散 化 方法 ， 每 个 区 间 的 
理想 实例 数量 可 以 改变 。PKIDiscretize 用 等 频 区 间 装 箱 法 离散 化 数值 型 属性 ， 其 中 装 箱 的 
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数量 是 值 (不 包括 缺失 值 ) 的 数量 的 平方 根 。 这 两 个 过 滤器 都 默认 跳 过 类 属性 。 

MakeIndicator 可 将 一 个 名 目 属性 变 成 一 个 二 值 属性 ， 且 可 用 于 把 一 个 多 类 的 数据 集 变 
成 多 个 二 类 的 数据 集 。 它 把 选 定 的 名 目 属 性 替换 成 一 个 二 值 属性 ， 对 于 每 个 实例 ， 如 果 该 
属性 对 应 的 原始 值 存在 ， 则 所 选 名 目 属性 的 值 设置 为 1， 否则 为 0。 新 属性 默认 声明 为 数 
值 型 ， 但 也 可 以 声明 为 名 目 型 的 。 

有 些 学 习 方 案 ， 如 支持 向 量 机 ， 必 须 将 多 值 属性 转换 成 二 值 属性 。NominalToBinary 过 
滤器 将 一 个 数据 集中 所 有 的 具有 多 个 值 的 名 目 属性 转换 成 二 值 属性 。 即 ， 以 一 对 一 的 简单 
编码 方式 ， 将 每 个 有 天 个 值 的 属性 以 上 个 二 值 属性 替换 。 新 属性 默认 为 数值 型 。 原 本 就 是 
二 值 的 属性 不 做 任何 改变 。NumericToBinary 把 所 有 数值 型 属性 转换 成 名 目 二 值 属性 (如果 
是 类 属性 ， 则 不 做 转换 ) 。 如 果 数 值 型 属性 的 值 是 0， 新 属性 也 是 0。 如 果 是 缺失 值 ， 新 属 
性 也 标记 为 缺失 ; 和 否则， 新 属性 的 值 是 1。 这些 过 滤器 同样 跳 过 类 属性 。NumericToNormi- 
nal 通过 往 名 目 值 列 表 中 简单 地 添加 每 个 数值 型 值 ， 将 数值 型 属性 转换 成 名 目 属性 。 在 导 
人 一 个 .csv 文件 之 后 ， 它 可 以 作为 一 个 有 用 的 过 滤 进 行 器 应 用 一 一 Weka 中 的 csv 导入 设备 
会 为 每 个 特定 数据 列 创建 一 个 数值 型 属性 ， 这 里 数据 列 中 的 所 有 值 都 可 以 解析 为 数字 ， 虽 
然 或 许 将 这 些 值 解释 为 离散 型 而 不 是 整 型 属性 更 有 意义 。 

FirstOrder 将 N 个 区 间 内 的 数值 属性 替换 成 N — 1 个 数值 属性 ， 新 属性 的 值 将 是 原来 实 
例 的 连续 属性 值 的 差 。 举 例 说 明 ， 如 果 原 来 的 属性 值 是 3、2 和 1， 新 值 将 是 -1 和 -1。 

KernerlFilter 将 数据 转换 成 一 个 核 矩 阵 : 输出 一 个 新 数据 集 ， 该 数据 集 包 含 的 实例 数 
与 之 前 的 相同 ， 数 据 集 里 的 每 个 值 都 保存 了 在 一 组 原始 实例 上 执行 核 函 数 的 评估 结果 。 尽 
管 这 些 值 没 有 重新 调整 到 单位 方差 ， 但 在 默认 情况 下 ， 所 有 值 均 转换 成 接近 0 的 值 进 行 集 
中 。 然 而 ， 用 户 可 以 指定 不 同 的 过 滤器 。 

PricipalComponents 对 数据 集 进行 主 成 分 转换 。 首 先 ， 所 有 多 值 的 名 目 属 性 转换 成 二 进 
制 ， 用 均值 取代 缺失 值 。( 默认 情况 ) 数据 是 标准 化 的 。 主 成 分 的 个 数 通 常 由 用 户 指定 的 
方差 覆盖 比例 来 决定 ， 同 时 也 可 以 精准 地 指定 成 分 个 数 。 

Wavelet 过 滤器 将 一 个 哈 尔 (Haar) 小 波 变换 应 用 到 数据 上 。MultiFilter 可 以 利用 均值 
和 众 数 对 缺失 值 进行 替换 ， 以 实现 数据 的 规范 化 。 用 户 可 以 调节 MultiFilter 的 配置 来 调整 
执行 的 预 处 理 操 作 。 

字符 串 转 换 

字符 串 属性 值 的 个 数 是 不 确定 的 。StringToNominal 将 字符 串 属性 转换 成 具有 一 定数 量 
的 值 的 名 目 属性 。 用 户 应 确保 所 有 将 要 出 现 于 洪 在 的 测试 数据 中 的 字符 串 值 在 数据 集中 都 
有 所 体现 。NominalToString 则 用 另 一 种 方式 进行 转换 。 

StringToWordVector 生成 代表 字符 串 属性 中 每 个 词 出 现 的 频率 的 属性 。 这 组 词 ， 即 这 些 
新 生成 的 属性 集 ， 由 字符 属性 的 完整 值 集合 决定 。 新 属性 可 使 用 用 户 决 定 的 前 级 来 命名 ， 
以 便 区 分 这 些 由 不 同 字符 串 属性 派生 而 来 的 属性 。 

有 很 多 选项 可 影响 到 分 词 。 词 可 由 连续 的 字母 序列 形成 ， 或 按照 一 组 给 定 的 分 隔 符 进 
行 分 离 。 若 为 后 者 的 情况 ， 则 这 些 词 可 以 进一步 分 裂 成 n-grams (根据 用 户 提供 的 最 小 和 
最 大 长 度 ) ， 或 者 也 可 以 由 stemming 算法 进行 处 理 。 在 加 入 字典 前 转换 成 小 写字 母 ， 或 干 
脆 忽 略 预 先 确定 的 所 有 英语 停 用 词 列表 中 的 词 。 在 前 个 按照 出 现 频 率 排序 的 词 中 所 没有 
的 词 会 被 删除 (如 果 排 序 时 在 第 个 位 置 出 现 并 列 ， 保留 词 的 数量 比 k 略 多 一 点 儿 也 是 可 
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以 的 ) 。 如 果 指 定 了 一 个 类 属性 ， 每 个 类 的 前 大 个 词 要 保留 。 每 个 词 属 性 的 值 反映 该 词 在 
字符 串 中 是 否 出 现 ， 但 这 是 可 以 修改 的 。 一 个 词 在 字符 串 中 出 现 的 次 数 也 可 作为 属性 值 使 
用 。 词 的 频率 可 被 规范 化 以 使 每 个 文档 的 属性 向 量 取 得 同样 的 欧 几 里 得 长 度 ， 该 长 度 不 能 
为 1， 而 应 该 用 做 原始 字符 串 属性 的 所 有 文档 的 平均 长 度 ， 以 避免 出 现 非常 小 的 数字 。 男 
一 种 方法 是 ， 词 i 出 现在 文档 j 中 的 频率 可 通过 或 TF x IDF 度量 ( 见 7.3 节 ) 进行 转换 。 

ChangeDateFormat 修改 了 用 于 解析 日 期 属性 的 格式 化 字符 串 。 可 以 指定 为 任何 Java 的 
SimpleDateFormat 类 所 支持 的 格式 。 

多 实例 数据 

有 两 种 过 滤器 可 以 将 多 实例 数据 转换 成 单 实例 形式 。MultiInstanceToPropositional 使 用 
了 “聚集 输出 ”方法 〈 见 4.9 节 ) ， 将 与 单一 关系 属性 相关 的 多 实例 数据 转换 为 单 实例 形 
式 ， 转 换 方法 是 通过 为 一 个 袋 中 的 每 个 实例 分 配 袋 的 类 值 。 有 多 个 选项 都 可 以 设置 新 实例 
的 权重 ， 以 便 调 节 不 同 尺寸 的 袋 。RELAGGS 通过 为 每 个 袋 中 的 属性 值 计算 概要 的 统计 量 
(如 均值 、 最 小 值 和 最 大 值 ) 来 执行 “聚集 输入 ”方法 。 它 还 有 一 个 选项 来 避免 为 具有 多 
个 用 户 指定 最 大 数值 的 名 目 属性 计算 统计 量 ,， 并 有 效 地 将 其 从 数据 中 移 除 。 

PropositionalToMultiInstance 是 从 另 一 方向 进行 转换 的 简单 过 滤器 ， 也 就 是 从 单 实例 到 
涉及 一 个 单一 关系 属性 的 多 实例 形式 。 它 假定 数据 中 的 第 一 个 属性 是 一 个 指明 每 个 实例 所 
属 袋 的 人 D。 

时 间 序 列 

有 两 个 过 滤器 可 处 理 时 间 序 列 数据 。TimeSeriesTranslate 将 当前 实例 的 一 个 属性 (或 多 
个 属性 ) 值 蔡 换 成 其 他 〈 以 前 的 或 将 来 的 ) 实例 的 等 同 的 值 。TimeSeriesDelta 将 当前 实例 
的 属性 值 蔡 换 成 当前 值 和 其 他 实例 值 的 差 。 在 以 上 两 种 情况 下 ， 时 间 位 移 (time- shifted) 
值 未 知 的 实例 可 以 删除 ， 或 用 缺失 值 代 替 。 

随机 化 

其 他 属性 过 滤器 用 来 降低 数据 的 质量 。AddNoise 修改 一 个 名 目 属性 的 值 的 百分比 。 缺 
失 值 可 保留 ， 或 与 其 他 的 一 起 修改 。Obfuscate 通过 对 关系 、 属 性 的 名 字 以 及 名 目 和 字符 串 
属性 的 值 进行 重新 命名 来 隐匿 数据 。RandomProjection 用 随机 的 具有 单位 长 度 的 列 和 矩阵 将 
数据 集 投 影 到 低 维 子 空 间 ( 见 7.3 节 ) 。 类 属性 不 包含 在 投影 中 。 


11.3.2 无 监督 实例 过 滤器 


Weka 的 实例 过 滤器 〈 见 表 11-2) 会 影响 到 数据 集中 所 有 的 实例 ， 而 不 是 一 个 或 一 些 
属性 的 所 有 值 。 
表 11-2 无 监督 实例 过 滤器 








名 称 功能 
NonSparseToSparse ETA ASC PIRAEUS (052.4 45) 
Normalize 把 数值 型 属性 看 成 一 个 向 量 并 将 其 规范 化 到 规定 长 度 
Randomize 随机 化 数据 集中 实例 的 顺序 
RemoveFolds 输出 数据 集 的 一 个 指定 的 交叉 验证 的 折 
RemoveFrequentValues 移 除 包 含 n 个 最 频繁 或 最 不 频繁 名 目 属性 值 的 实例 


RemoveMisclassified 删除 那些 按照 指定 的 分 类 器 未 能 正确 分 类 的 实例 ， 移 除 异常 点 同样 适用 
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(5) 
名 称 功能 
RemovePercentage 从 数据 集中 移 除 一 定 百 分 比 的 内 容 
RemoveRang 从 数据 集中 移 除 一 定 范围 的 实例 
RemoveWithValues 过 滤 出 有 特定 属性 值 的 实例 
Resample 对 数据 集 产生 一 个 子 样本 ,使 用 替代 者 进行 抽样 
ReservoirSample 增 量 式 地 从 数据 集中 均匀 地 抽样 出 个 实例 
SparseToNonSparse 将 所 有 输入 的 稀 朴 属性 转换 成 非 稀 朴 形式 
SubsetByExpression 根据 钦 辑 表达 式 的 评估 来 保留 实例 ， 将 数学 和 座 辑 运算 符 应 用 到 属性 值得 到 表达 式 
随机 化 和 二 次 抽样 


用 户 可 随机 化 数据 集中 的 实例 顺序 。 规 范 化 (Normalize) 把 所 有 数值 属性 (不 包括 
类 属性 ) 看 做 是 一 个 向 量 并 将 其 规范 化 到 规定 长 度 。 用 户 可 指定 所 用 向 量 的 长 度 和 
范 数 。 

有 许多 不 同 的 方法 可 产生 数据 的 子 集 。 用 Resample 产生 一 个 随机 样本 ， 抽 样 过 程 
可 以 是 有 放 回 或 无 放 回 的 ， 或 用 RemoveFolds 将 数据 分 割 为 给 定数 量 的 交叉 验证 的 折 并 
降低 到 仅仅 一 个 折 。 如 果 给 定 一 个 随机 数 的 种 子 ， 则 可 对 数据 集 进 行 随机 组 合 ， 然 后 再 
抽取 子 集 。ReservoirSample 使 用 7. 4 节 中 所 描述 的 蓄 水 池 抽 样 算法 从 数据 集 产生 一 个 随 
机 样本 (无 放 回 抽样 )。 若 从 Knowledge Flow 界面 ( 见 第 12 Æ) 或 者 命令 行 界面 (IL 
第 14 章 ) 来 使 用 数据 ， 则 数据 集会 以 增 量 式 的 方式 读 入 ， 使 得 超过 主 存 部 分 的 数据 集 
得 以 抽样 。 

RemovePercentage 删除 一 定 百 分 比 的 实例 ， 而 RemoveRange 删除 一 个 特定 区 间 内 的 实 
例 数 。 为 了 删除 所 有 含有 某 些 特定 名 目 属 性 值 的 实例 ， 或 者 对 于 数值 属性 来 说 ， 其 值 大 于 
B/N FFE BAAS H, H RemoveWithValues。 默 认 时 ， 这 些 情况 的 实例 都 将 被 删除 : E 
现 的 值 是 一 组 指定 名 目 属性 值 中 的 一 个 〈 如 果 指 定 的 是 名 目 属 性 ) ， 或 其 属性 值 低 于 一 个 
BH (如 果 是 数值 属性 ) 。 然 而 ， 以 上 吻合 标准 也 可 以 反 向 适用 。 属 性 信息 通常 是 不 改变 
的 ， 但 是 也 可 以 改变 这 个 使 得 名 目 属性 相应 的 值 从 属性 的 定义 中 移 除 。 

若 实例 包含 了 某 个 特定 名 目 属性 的 最 频繁 或 最 不 频繁 的 值 ， 则 可 用 RemoveFrequentV- 
alues 来 移 除 这 些 实例 ; 用 户 可 以 指定 多 频繁 或 者 多 不 频繁 的 值 应 该 被 移 除 。 

SubsetByExpression 可 以 筛选 出 所 有 满足 用 户 所 提供 的 逻辑 表达 式 的 实例 。 表 达 式 可 以 
有 数学 运算 符 和 函数 ， 如 AddExpression 及 MathExpression 中 所 用 的 运算 符 和 函数 ， 或 者 是 
作用 在 属性 值 上 的 逻辑 运算 符 (如 与 、 或 、 非 )。 举 个 例子 ， 表 达 式 

(CLASS is ‘mammal’) and (ATT14 > 2) 
只 筛选 那些 类 属性 值 为 mammal (哺乳 动物 ) 并 且 第 14 个 属性 值 大 于 2 的 实例 。 

用 户 可 以 通过 将 一 个 分 类 器 方法 应 用 到 数据 集 来 移 除 异常 点 (指定 的 方法 类 似 于 前 面 
谈 到 的 为 AddCluster 指定 聚 类 方法 的 过 程 ) ， 也 可 以 使 用 RemoveMisclassfied 来 删除 被 错误 
分 类 的 实例 。 这 个 过 程 通 常 要 在 数据 完全 清理 之 后 ， 但 也 可 以 选择 指定 最 大 迭代 次 数 的 方 
法 。 训 练 数据 上 可 以 使 用 交叉 验证 而 不 是 评估 ， 对 于 数值 型 的 类 标 还 需要 为 其 指定 一 个 错 
RRE. 
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稀疏 实例 


NonSparseToSparse 和 SparseToNonSparse 过 滤器 可 用 来 在 数据 集 的 正则 形式 与 它 的 稀 玖 
形式 (0.2.4 35) 之 间 进 行 转换 。 


11.3.3 ”有 监督 过 滤器 


与 无 监督 过 滤器 一 样 ， 有 监督 过 滤器 也 可 在 Explorer 的 Preprocess 面板 上 找到 。 用 户 
需 小 心 ， 尽 管 它 们 看 上 去 像 是 预 处 理 操作 ， 但 实际 上 不 是 。 我 们 在 前 面谈 到 离散 化 的 时 候 
提 到 了 到 这 一 点 ,测试 数据 的 分 割 一 定 不 能 用 测试 数据 的 类 值 ， 因 为 这 些 类 值 是 假定 未 知 
的 ， 而 且 一 般 来 说 对 有 监督 过 滤器 也 是 如 此 。 

为 了 满足 流行 的 需求 ， 也 是 其 受 欢 迎 的 原因 ，Weka 允许 用 户 像 调用 无 监督 过 滤器 一 
样 调用 有 监督 过 滤器 作为 一 种 预 处 理 操 作 。 然 而 ， 如 果 用 户 想 把 它们 用 于 分 类 ， 则 需要 采 
用 一 种 不 同 的 方式 。Weka 提供 了 一 个 元 学 习 器 用 于 调用 一 个 过 滤器 ， 从 而 将 学 习 算 法 包 
含 在 过 滤 机 制 中 。 这 样 就 可 以 用 由 训练 数据 生成 的 过 滤器 来 过 滤 测 试 数据 。 这 对 一 些 无 监 
督 过 滤器 也 很 和 用 。 例 如， 在 StringToWordVector 中 ， 字 典 仅仅 是 由 训练 数据 生成 的 ， 测 
试 数 据 中 的 异常 字 将 被 删除 。 欲 以 该 种 方式 使 用 有 监督 过 滤器 ， 调 用 菜单 的 meta 部 分 中 
的 Filtered Classifier 元 学 习 方 案 ， 该 菜单 可 通过 单 击 Classify 面板 上 的 Choose 按钮 显示 。 
11-18a 给 出 了 该 元 学 习 方 案 的 对 象 编辑 器 。 用 户 可 在 对 象 编辑 器 中 选择 分 类 器 和 过 滤 
器 。 图 11-18b 列 出 了 过 滤器 菜单 。 
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Id Opena: 人 Saves. E OK ds d x x Cancel Ji > G unsupervised 
a) y WHEFilieredClassifier b) 过 滤器 菜单 


图 11-18 使 用 Weka 的 元 学 习 器 进行 离散 化 


与 无 监督 过 滤器 一 样 ， 有 监督 过 滤器 可 分 为 属性 过 滤器 和 实例 过 滤器 ， 见 表 11-3 和 
表 11-4。 


表 11-3 有 监督 属性 过 滤器 





名 称 功能 
AddClassification 从 一 个 分 类 器 添加 预测 值 (类 标 或 者 概率 分 布 ) 作为 新 属性 
AttributeSelection 提供 与 属性 选择 面板 中 同样 的 属性 选择 方法 
ClassOrder 随机 化 ,或 者 修改 类 值 顺 序 
Discretize 将 数值 型 属性 转换 成 名 目 属性 
NominalToBinary 将 名 目 属性 转换 成 类 型 的 ， 若 类 标 为 数值 型 ， 则 使 用 一 个 有 监督 方法 


PLSFilter 从 输入 数据 计算 局 部 最 小 二 乘 趋势 ， 并 将 其 转换 到 局 部 最 小 二 乘 空间 
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表 11-4 有 监督 实例 过 滤器 





名 称 功能 
Resample 产生 一 个 随机 子 样本 集合 ,使 用 有 放 回 抽样 
SMOTE 使 用 合成 最 小 过 抽样 技术 对 数据 进行 重新 抽样 
SpreadSubsample 给 定 类 频率 间 的 一 个 扩展 ， 产 生 一 个 随机 的 子 样本 集合 ， 使 用 有 放 回 抽样 
StraifiedRemoveFolds 为 数据 集 输出 一 个 指定 分 层 的 10 折 交 又 验 证 
有 监督 属性 过 滤器 


图 11-18 中 高 亮 的 Discretize， 使 用 了 MDL 方法 来 有 监督 地 进行 离散 化 (07.2 节 )。 用 
户 可 以 制定 一 定 范围 的 属性 将 其 离散 化 后 的 属性 变 为 二 值 型 的 。 类 属性 必须 为 名 目 型 的 。 默 
认 情 况 下 ,使 用 Fayyad 和 Irani (1993) 准则 ，Kononenko 方法 (1995) 也 是 可 选 的 。 

NominalToBinary 过 滤器 有 一 个 有 监督 版 本 ， 它 把 所 有 多 值 的 名 目 属性 转换 为 二 值 属 
性 。 在 这 个 版 本 中 ， 该 转换 取决 于 其 中 的 类 是 数值 型 的 还 是 名 目 型 的 。 如 果 是 名 目 型 的 ， 
前 面 用 过 的 方法 同样 适用 ， 将 一 个 具有 正 个 值 的 属性 转换 为 正 个 属性 。 但 如 果 类 是 数值 型 
的 ， 采 用 6. 6 节 中 描述 过 的 方法 。 不 论 哪 种 情况 ， 类 属性 本 身 不 做 转换 。 

ClassOrder 修改 类 值 的 排序 方法 。 用 户 决 定 新 的 排序 是 随机 的 ， 还 是 按 类 频率 由 高 至 
低 或 由 低 至 高 排列 。 该 过 滤器 绝对 不 可 以 与 Filtered Classifier 元 学 习 方 案 一 起 使 用 ! 
AttributeSelection 可 用 于 自动 属性 选择 ， 并 可 提供 与 Explorer 的 Select attribute 面板 (后面 
会 谈 到 ) 同样 的 功能 。 

AddClassification 往 数 据 中 添加 一 个 指定 分 类 器 的 预测 值 ， 它 们 可 以 由 输入 数据 训练 而 
来 ， 也 可 以 从 一 个 序列 化 的 对 象 文件 中 导 和 得到。 可 以 添加 新 的 属性 来 表示 预测 的 类 标 
值 ， 预 测 的 概率 分 布 〈 若 为 类 标 为 名 目 型 的 ) ， 或 者 也 可 以 是 一 个 用 于 表示 错误 分 类 实例 
的 标志 〈 或 者 ， 对 于 数值 型 类 标 ， 预 测 类 标 值 和 实际 类 标 值 之 间 的 区 别 ) 。 

PLSFilter 为 输入 数据 计算 偏 最 小 二 乘 方向 ， 并 且 利 用 它 将 数据 转换 到 偏 最 小 二 乘 空间 
中 。 结 果 与 7. 3 节 中 描述 的 方法 相同 (实现 了 两 种 不 同 的 算法 ; 它们 使 用 一 个 常量 因子 得 
到 相同 的 结果 ) 。 计 算得 到 的 方向 个 数 可 以 指定 ， 可 以 在 新 数据 集中 保留 原始 类 属性 或 用 
预测 值 将 其 替换 。 缺 失 值 用 默认 值 蔡 换 ， 在 计算 偏 最 小 二 乘 之 前 ， 输 入 数据 可 以 往 中 心 聚 
集 也 可 以 标准 化 。 数 据 集 必 须 是 数值 型 的 ; 如 果 它 包含 名 目 属性 ， 则 用 户 必 须 删 除 它们 或 
将 它们 转换 成 数值 属性 。 

有 监督 实例 过 滤器 

共有 四 种 有 监督 实例 过 滤器 。Resample， 顾 名 思 义 ， 除 了 可 完成 子 样本 中 的 类 分 布 
外 ， 它 就 是 一 个 无 监督 过 滤器 。 除 此 以 外 ， 它 还 可 以 经 过 适当 设置 ， 在 类 分 布 中 加 入 偏差 
使 其 成 为 平均 分 布 。 抽 样 过 程 可 以 是 有 放 回 的 (默认 )， 也 可 以 是 无 放 回 的 。SpreadSub- 
sample 还 生成 一 个 随机 的 子 样本 ,但 最 少见 与 最 常见 之 间 的 频率 差 是 可 以 控制 的 ， 比 方 
说 ， 用 户 可 在 类 频率 中 指定 一 个 2:1 的 差 。 用 户 还 可 以 通过 明确 指定 一 个 最 大 计数 来 限制 
每 个 类 别 中 实例 的 数目 。 

另 一 种 过 滤器 SMOTE ， 可 以 对 数据 进行 抽样 并 修改 类 的 分 布 (Chawla 等 ，2002)。 与 
SpreadSubsample 一 样 ， 该 过 滤器 也 可 以 用 于 调整 数据 中 最 小 与 最 大 类 标的 相对 频率 ， 但 是 
它 并 不 关心 对 多 数 类 的 欠 抽样 ， 它 通过 使 用 左近 邻 法 创建 合成 实例 来 实现 对 少数 类 的 过 抽 
样 。 用 户 可 以 指定 过 抽样 的 百分比 ， 和 在 创建 合成 实例 时 候 所 用 的 邻居 数 。 
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与 无 监督 实例 过 滤器 RemoveFolds 一 样 ，StratifiedRemoveFolds 输出 数据 集中 一 个 指定 
的 交叉 验证 的 折 。 不 同 的 是 ， 这 里 的 折 是 分 层 的 。 


11.4 学 习 算法 


在 Classify 面板 上 ， 当 用 户 通过 Choose 按钮 选择 一 个 学 习 算 法 时 ， 相 关 分 类 器 的 命令 
行 版 本 会 与 用 减 号 标注 的 参数 一 起 出 现在 按钮 旁 的 横 栏 中 。 为 了 对 这 些 参数 进行 修改 ， 单 
击 该 横 栏 ， 弹 出 一 个 相应 的 对 象 编辑 器 。 表 11-5 列 出 了 Weka 中 的 分 类 器 。 这 些 分 类 器 被 
划分 为 贝 叶 斯 分 类 、 树 、 规 则 、 函 数 、 懒 惰 分 类 器 、 多 实例 分 类 器 ， 以 及 一 个 最 终 的 杂项 
类 分 类 器 。 我 们 对 这 些 分 类 髓 及 其 参数 做 简单 描述 。 欲 对 它们 做 深入 了 解 ， 可 在 Weka 的 
Explorer 界面 上 任 选 一 种 分 类 器 ， 然 后 查看 其 对 象 编 辑 器 。 更 进 一 层 的 分 类 器 元 学 习 融 ， 
会 在 下 一 节 中 描述 。 


表 11-5 Weka 中 的 分 类 算法 











名 称 功能 
贝 叶 斯 AODE 平均 单 依赖 分 类 器 
AODEsr 带 归 类 解决 的 平均 单 依赖 分 类 器 
BayesianLogisticRegression 用 贝 叶 斯 方法 学 习 线性 Logistic 回归 模型 
BayesNet 学 习 得 到 贝 叶 斯 网 络 . 
ComplementNaiveBayes 建立 一 个 补偿 的 朴素 贝 叶 斯 分 类 器 
DMNBText 有 差别 的 多 项 式 朴素 贝 叶 斯 分 类 器 
HNB 隐匿 的 朴素 贝 叶 斯 分 类 器 
NaiveBayes 标准 概率 朴素 贝 叶 斯 分 类 器 
NaiveBayesMultinomial 多 项 式 版 本 的 朴素 贝 叶 斯 
NaiveBayesMultinomial- Updateable 增 量 式 朴素 贝 叶 斯 分 类 器 ， 每 次 学 习 一 个 实例 
WAODE 加 权 的 平均 单一 依赖 分 类 器 
树 ADTree 创建 交替 式 决策 树 
BFTree 使 用 最 优 最 先 搜索 创建 一 棵 决策 树 
DecisionStump 创建 单 层 决策 树 
FT 在 叶子 上 使 用 斜 分 裂 和 线性 函数 来 创建 一 棵 函数 树 
Id3 基本 的 分 治 决策 树 算法 
J48 CA. 5 决策 树 学 习 法 (C4. 5 版 本 8 的 实现 ) 
J48graft 带 移植 的 C4. 5 算法 
LADTree 使 用 LogitBoost 来 创建 多 类 标 交 蔡 决策 树 
LMT 创建 Logistic 回归 树 
M5P M5 ' 树 学 习 模型 
NBTree 使 用 朴素 贝 叶 斯 分 类 器 在 叶子 处 出 创建 一 棵 决策 树 
RandomForest 创建 随机 森林 
RandomTree 在 每 个 结 点 处 考虑 随机 特征 的 给 定数 目 ， 来 创建 一 棵 树 
REPTree 使 用 减少 - 误差 前 枝 法 的 快速 树 学 习 器 
SimpleCart 使 用 CART 的 最 低 成 本 复杂 度 剪 枝 法 的 决策 树 学 习 器 
UserClassifier 允许 用 户 创建 自己 的 决策 树 
规则 ConjunctiveRule 简单 连接 规则 学 习 器 


DecisionTable 


创建 一 个 简单 的 决策 表 多 数 分 类 器 


DTNB 决策 表 和 朴素 贝 叶 斯 的 混合 分 类 器 

JRip 用 于 快速 ， 有 效 的 规则 归纳 的 RIPPER 算法 
M5Rules 从 利用 M5 ' 建 立 的 模型 树 中 获取 规则 

Nnge 使 用 非 幅 套 泛 化 的 样本 集 来 产生 规则 的 最 近邻 方法 


OneR 


1R 分 类 器 
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(2) 
名 称 功能 
PART 从 利用 J4. 8 建立 的 部 分 决策 树 中 获取 规则 
Prism 应 用 于 规则 的 简单 覆盖 算法 
Ridor 链 波 下 降 规则 学 习 器 


ZeroR 


预测 多 数 类 ( 如 果 是 名 目 型 的 ) 或 平均 值 (如 果 是 数值 型 的 ) 














函数 GaussianProcesses 用 于 回归 的 高 斯 处 理 
IsotonicRegression 创建 一 个 保 序 回归 模型 
LibLINEAR 包装 分 类 器 ， 以 便 使 用 用 于 回归 的 第 三 方 LIBLINEAR Je 
LibSVM 包装 分 类 器 ， 以 便 使 用 用 于 支持 向 量 机 的 第 三 方 LIBSVM JE 
LinearRegression 标准 多 线性 回归 
Logistic 建立 线性 Logistic 回归 模型 
MultilayerPerceptron 反 向 传播 的 神经 网 络 
PaceRegression 用 Pace 回归 建立 线性 回归 模型 
PLSClassifier 创建 部 分 最 小 二 乘 方向 ， 并 以 此 进行 预测 
RBFNetwork 实现 一 个 径 向 基 函 数 网 络 
SimpleLinearRegression 学 习 一 个 基于 单个 属性 的 线性 回归 模型 
SimpleLogistic 使 用 已 有 的 属性 选择 ， 建 立 线性 Logistic 回归 模型 
SMO 用 于 支持 向 量 分 类 的 序列 最 小 优化 算法 
SMOreg 用 于 支持 向 量 回归 的 序列 最 小 优化 算法 
VotedPerceptron 投票 感知 机 算法 
Winnow 成 倍 更 新 的 ， 由 错误 驱动 的 感知 机 
懒惰 IBI 基本 的 基于 实例 的 最 近邻 学 习 器 
IBk 最 近邻 分 类 器 
KStar 使 用 泛 化 距离 函数 的 最 近邻 
LBR 懒惰 贝 叶 斯 规则 分 类 器 
LWL 用 于 局 部 加 权 学 习 的 一 般 算法 
MI CitationKNN 引用 基于 距离 的 KNN 方法 
MDD 使 用 集合 假设 的 多 密度 
MIBoost 使 用 集合 假设 对 多 实例 数据 进行 加 强 
MIDD 标准 多 密度 算法 
MIEMDD 基于 EM 的 多 密度 算法 
MILR 多 实例 Logistic 回归 
MINND 使 用 KL 距离 的 最 近邻 法 
MIOptimalBall 根据 到 参照 点 的 距离 对 多 实例 数据 进行 分 类 
MISMO 使 用 多 实例 核 函 数 的 SMO 
MISVM 迭代 地 将 一 个 单 实例 支持 向 量 机 学 习 器 应 用 到 多 实例 数据 
MIWrapper 使 用 整合 输出 方法 来 应 用 单 实例 学 习 器 
SimpleMI 使 用 整合 输入 方法 来 应 用 单 实例 学 习 器 
杂项 HyperPipes 基于 实例 空间 中 超大 量 的 学 习 器 ,极其 简单 、 快 速 
VFI 投票 特征 区 间 方 法 ， 简 单 而 快速 


11.4.1 贝 叶 斯 分 类 器 


NaiveBayes 实现 概率 的 朴素 贝 叶 斯 分 类 器 ( 见 4.2 节 )。NaiveBayesSimple 用 正 态 分 布 
来 构建 数值 属性 的 模型 。NaiveBayes 可 利用 核 密度 估计 器 ， 从 而 在 正 态 性 假设 总 体 不 正确 
的 情况 下 改进 性 能 。 它 还 可 用 有 监督 离散 化 来 处 理 数值 属性 。 

图 11-19 给 出 了 基于 天 气 数据 的 NavieBayes 算法 输出 结果 。 这 个 输出 与 图 11-5 中 相同 
数据 上 的 J48 算法 输出 存在 的 显著 不 同 就 在 于 它 输出 的 不 是 一 棵 文本 形式 的 树 ， 这 里 关于 
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318 第 三 部 分 Weka 数据 控 握 平台 





朴素 贝 叶 斯 模型 的 参数 呈现 在 表 中 。 第 一 列 给 出 了 属性 ， 其 他 两 列 给 出 了 类 标 值 ， 表 中 每 
项 可 以 是 名 目 值 的 频 度 计数 ， 也 可 以 是 数值 型 属性 正 态 分 布 的 参数 。 比 如 ， 由 图 11-19 可 
知 所 有 类 标 为 yes 的 实例 其 平均 温度 为 72. 9697， 而 对 于 所 有 windy = yes 的 实例 ，true 和 
false 值 分 别 出 现 了 4 次 和 7 次 。 意 外 的 是 ， 属 性 windy 值 为 yes 和 no 的 总 数 为 18 ， 多 于 天 
气 数据 的 14 条 实例 (属性 outlook 的 情况 更 糟 ， 一 共有 20 条 ) 。 其 原因 是 NavieBayes 通过 
利用 拉 普 拉 斯 平滑 避免 了 零 概率 问题 ， 即 令 计 数 初始 化 为 1 而 不 是 0。 

NaiveBayesUpdateable 是 一 个 每 次 只 处 理 一 个 实例 的 增 量 版 本 ， 利 用 核 估计 器 ， 但 不 使 
用 离散 化 。NaiveBayesMultinomial 实现 多 重 名 目 型 贝 叶 斯 分 类 器 ( 见 4.2 节 )。Comple- 
mentNaiveBayes 建立 一 个 补充 的 朴素 贝 叶 斯 分 类 器 ， 就 像 Rennie (2003) 所 描述 的 那样 
(本 书 中 所 用 的 TF x IDF 和 长 度 规范 化 转换 可 用 StringToWordVector 过 滤器 来 实现 ) 。 

AODE 就 是 6.7 节 中 所 描述 的 平均 单一 依赖 估计 器 。WAODE 是 AODE 的 一 种 ， 创 建 一 
种 加 权 的 单一 依赖 过 滤器 整体 而 不 是 简单 的 平均 值 (Jiang 和 Zhang，2006 ) 。 其 中 每 个 成 员 
的 权重 与 它 的 超 父 结 点 和 类 属性 之 间 的 互信 息 成 比例 。AODEsr 是 AODE 的 一 种 ， 它 包括 了 
分 类 时 高 度 相 关 属 性 之 间 的 懒惰 消除 (Zheng 和 Webb, 2006), HNB 学 习 了 一 个 隐匿 的 朴素 
贝 叶 斯 模型 ， 这 是 一 种 简单 的 贝 叶 斯 网 络 ， 其 中 的 每 个 属性 都 由 一 个 类 属性 的 父 结 点 以 及 一 
个 结合 了 所 有 其 他 属性 影响 的 特殊 “隐匿 ” 父 结 点 (Zhang 等 ，2005 ) 。 每 个 属性 的 隐匿 结 
点 都 是 由 加 权 单 一 依赖 分 类 器 的 平均 值 构建 得 到 ， 每 个 分 类 器 的 权重 使 用 条 件 互信 息 计算 。 

另 一 种 用 于 文本 分 类 的 朴素 贝 叶 斯 模式 是 DMNBtext (Su 等 ，2008) 。 它 用 生成 〈genera- 
tive) 和 判别 (discriminative) 的 方法 学 习 得 到 一 个 多 项 式 朴 素 贝 叶 斯 分 类 器 。 贝 叶 斯 网 络 的 
参数 用 生成 的 方式 传统 地 得 到 ， 由 训练 数据 中 计算 频率 计数 来 获得 条 件 概率 表 一 一 给 定 模 
型 ， 以 此 来 最 大 化 数据 的 似 然 。 相 反 ， 分 类 器 设置 中 用 来 最 大 化 泛 化 精度 (或 条 件 似 然 值 ) 
的 参数 值 却 是 理想 的 。DMNBText 在 更 新 频率 计数 之 前 ， 考 察 目 前 分 类 器 对 训练 实例 的 预测 
情况 ， 以 此 往 参 数 中 注入 判别 的 元 素 。 在 处 理 一 个 给 定 的 训练 实例 时 ， 用 1 减 去 实例 类 标的 预 
测 概率 来 实现 计数 的 增加 。DMNBText 允许 用 户 指 定 算法 在 训练 数据 上 的 迭代 次 数 、 是 否 忽略 
词 频 信息 ， 这 时 算法 会 学 习 得 到 一 个 标准 朴素 贝 叶 斯 模型 ， 而 不 是 一 个 多 项 式 的 模型 。 

BayesianLogisticRegression 采用 了 一 种 贝 叶 斯 方法 ， 通 过 允许 用 户 将 先 验 概率 应 用 到 模型 
有 效 性 评估 值 来 学 习 一 个 二 项 式 Logistic 回归 函数 。 零 均值 高 斯 和 拉 普 拉 斯 分 布 可 以 用 于 得 
到 先 验 值 。 两 者 都 支持 有 协同 因素 的 稀疏 性 ， 拉 普 拉 斯 比 起 高 斯 尤其 如 此 ， 它 可 以 使 得 这 种 
方法 更 适合 学 习 高 维 问题 的 Logistic 回归 模型 一 一 如 文本 分 类 (Genkin 等 ，2007) 。 用 户 可 以 
选择 设置 一 个 指定 值 先 验 的 方差 ， 或 者 通过 使 用 交叉 验证 在 一 定 范围 内 直接 将 其 选 定 。 

BayesNet 通过 基于 6. 7 节 中 所 做 的 假设 来 学 习 贝 叶 斯 网 络 ， 假 设 要 求 必 须 是 名 目 属性 
(数值 属性 需 预先 离散 化 ) 并 且 没 有 缺失 值 (任何 类 似 的 值 全 部 被 替换 )。 有 4 种 不 同 的 
用 于 估计 网 络 的 条 件 概 率 表 的 算法 。 搜 索 是 通过 以 下 方式 完成 的 : K2 或 TAN 算法 (CU 
6.7 节 ) ， 或 更 成 熟 的 基于 登山 、 模 拟 淳 火 、 制 表 搜 索 及 通用 算法 基础 上 的 方法 。 视 不 同 
情况 ， 搜 索 速 度 可 通过 AD 树 (7.6.75) 得 到 提高 。 还 有 两 种 算法 是 通过 条 件 独 立 测 试 
来 学 习 网 络 的 结构 。 另 外 ， 网 络 结构 也 可 从 一 个 XML 文件 载 人 。 关 于 Weka 中 贝 叶 斯 网 络 
的 更 多 详细 内 容 可 在 Bouckaert (2004) 中 找到 。 

用 户 可 通过 右 击 历史 条 目 然后 选择 Visualize graph 的 方式 观察 网 络 结构 。 图 11-20a 显 
示 的 是 天 气 数据 的 名 目 型 版 本 的 图 表 ， 该 图 表 实 际 上 与 由 类 值 决 定 的 所 有 概率 条 件 的 朴素 
贝 叶 斯 的 结果 相对 应 。 这 是 因为 搜索 算法 在 默认 情况 下 使 用 的 是 K2 ， 且 一 个 结 点 的 父 
结 点 数量 的 最 大 值 设 为 1。 通 过 单 击 配 置 面 板 上 的 K2 将 该 最 大 值 重 新 设 为 3， 可 得 到 如 





£$113x Explorer% 319 





Scheme: weka.classifiers.bayes.NaiveBayes 
Relation: weather 
Instances: 14 
Attributes: 5 
outlook 
temperature 
humidity 
windy 
play 
Test mode: 10-fold cross-validation 


Classifier model (full training set) --- 
Naive Bayes Classifier 


Class 
Attribute yes no 
(0.63) (0.38) 


overcast 
rainy 
[total] 


temperature 
mean 
std. dev. 
weight sum 
precision 


humidity 
mean å 86.1111 
std. dev. a 9.2424 
weight sum 5 
precision ; 3.4444 


windy 
TRUE 
FALSE 
[total] 


Time taken to build model: 0 seconds 


Stratified cross-validation --- 
Summary --- 


Correctly Classified Instances 64.2857 $ 
Incorrectly Classified Instances 35.7143 $ 
Kappa statistic 

Mean absolute error 

Root mean squared error 

Relative absolute error 

Root relative squared error 

Total Number of Instances 


=== Detailed Accuracy By Class --- 
TP Rate FP Rate Precision Recall F-Measure ROC Area 
0.8 a . 0.762 0.444 


0.111 « s 0.286 0.444 
0.554 " . 0.592 0.444 


yes 
no 





11-19. 天 气 数据 的 NaiveBayes 输出 
图 11-20b 所 示 的 更 为 有 趣 的 网 络 。 在 一 个 结 点 上 单 击 可 显示 它 的 概率 分 布 ， 图 11-20c 就 
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是 通过 单 击 图 11-20b 中 的 windy 结 点 得 到 的 。 


e © e Weka Classifier Graph Y Visualizer: 09:18:53 - bayes.BayesNet 





a) 默认 输出 











e e e Weka Classifier eran v Visualizer: 09:20:05 - haves: BayesNet 
= 3 





b) 在 搜索 算法 中 将 最 大 双亲 值 设置 为 3 


§ © @ Probability Distribution Table For windy 


play outlook temperature — — 





yes. overcast 





noj iny | 





TRUE — FALE —— 
.5 0.5 
0.75 0.25 
0.25 0.75 
0.167 0.833 
0.75 0.25 
0.75 0.25 
0.5 0.5 
0.167 0.833 
0.25 0.75 
0.5 0.5 
0.25 0.75 
0.5 0.5 
0.5 0.5 
0.5 0.5 
0.5 0.5 
0.5 0.5 
0.75 0.25 
0.75 0.25 


c) b 中 windy 结 点 的 概率 分 布 表 
图 11-20 ”可视化 天 气 数据 (名目 型 版 本 ) 的 贝 叶 斯 网 络 


11.4.2 树 


从 表 11-5 中 的 树 分 类 器 中 ， 我 们 已 经 看 到 

了 UserClassifier (911.2 45) 以 及 如 何 使 用 实 
现 了 C4.5 ( 见 6.1 节 ) 的 J4.8。 为 了 显示 它 
选项 ， 单 击 图 11-4b 中 的 Choose 按钮 旁边 的 
横 栏 ， 弹 出 图 11-21 中 的 对 象 编辑 器 。 用 户 可 
建立 二 叉 树 而 不 是 多 又 树 。 用 户 还 可 设 定 剪 梳 
的 置信 和 度 阅 (默认 是 0.25)， 和 一 个 叶子 结 点 
上 可 允许 的 实例 的 最 低 数量 (默认 是 2)。 用 户 
还 可 选择 减少 误差 的 剪 枝 (016.2 节 ) 而 不 是 
选择 标准 C4. 5。 参 数 numFolds (默认 是 3) X 
定 了 剪 梳 集 的 大 小 ， 数 据 按 照 折 的 数量 被 平均 
划分 ， 最 后 一 折 用 于 剪 枝 。 当 可 视 化 所 得 到 的 
树 时 ， 最 好 能 够 参照 原始 数据 点 ， 用 户 可 通过 
打开 saveInstanceData 做 到 这 一 点 (默认 是 关 掉 
或 False， 





More 


( _ Capabilities J 


binarySplits | False ir c remm iw ll 4 





confidenceFactor 


debug 








minNumObj 2 





numFolds '3 
i reducedErrorPi uning (wie Sa ii 
Í 


savelnstanceData | 








seed 1 
subtreeRaising fTwe———--———— ——- RÀ. 


unpruned | 








usekaplace [Fasem =m m 1 8 0 6 
Coe) Comes CO) CE 
图 11-21 改变 J4.8 的 参数 


目的 是 节省 主 存 ) 。 用 户 可 阻止 子 树 提 升 ， 从 而 得 到 一 个 更 高 效 的 算法 ， 强 迫 
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所 用 算法 使 用 未 剪 枝 的 树 而 不 是 已 剪 枝 的 树 ， 或 将 拉 普 拉 斯 平滑 应 用 于 预测 的 概率 (DU, 
4.2 1). 

d 11-5 列 出 了 很 多 其 他 决策 树 方法 。Id3 是 第 4 章 中 解释 过 的 基本 算法 。Decision- 
Stump 是 专门 设计 用 来 与 后 面 将 要 讨论 的 提升 方法 一 起 使 用 的 ， 它 为 含有 一 个 类 别 化 的 ， 
或 数值 型 的 类 的 数据 集 建立 一 个 单 层 二 又 决策 树 ， 与 此 同时 ， 它 把 缺失 值 按照 一 个 单独 的 
值 来 处 理 并 从 树桩 上 扩展 出 第 三 个 分 支 。 通 过 RandomTree 所 构建 的 树 测试 每 个 结 点 上 的 
指定 数量 的 随机 属性 ， 对 树 不 做 前 枝 。RandomForest 通过 将 随机 树 进行 整体 装 袋 来 构建 随 
机 森林 ( 见 8.3 节 ) 

J48graft 是 J48 的 扩展 版 本 ， 它 考虑 在 后 处 理 阶 段 将 额外 的 分 支 移植 到 树 上 (Webb, 
1999) 。 这 种 移植 方法 试图 在 保持 单个 可 说 明 结构 的 同时 ， 还 能 获得 一 些 诸如 装 袋 树 和 提 
升 树 等 集成 方法 的 效果 。 它 定义 了 实例 空间 的 范围 ， 这 个 范围 要 么 全 空 要 么 只 包含 错误 分 
类 的 例子 ， 同 时 它 还 通过 考虑 不 同 测试 来 探索 其 他 的 分 类 器 ， 这 些 测试 可 以 在 那些 问题 中 
包含 区 域 的 叶子 之 上 的 结 点 上 被 选择 到 。 

REPTree 用 信息 增益 /方差 缩减 生成 一 个 决策 树 或 回归 树 并 用 减少 - 误差 的 剪 枝 法 对 
其 进行 前 枝 ( 见 6.2 节 )。 为 了 在 速度 上 进行 优化 ， 该 算法 只 对 数值 属性 的 值 进行 排序 一 
次 ( 见 6.1 节 )。 它 像 C4.5 一 样 把 实例 分 解 成 小 片 来 处 理 缺 失 值 。 用 户 可 设 定 每 个 叶 所 含 
实例 的 最 低 数量 、 树 的 最 大 深度 (提升 树 时 很 有 用 ) 、 分 割 训练 集 时 方差 的 最 小 比例 CR 
针对 数值 型 的 类 ) 、 剪 枝 时 折 的 数量 。 

BFtree 创建 决策 树 时 ， 使 用 的 是 结 点 的 最 好 优先 扩展 ， 而 不 是 像 标准 决策 树 学 习 器 
(如 C4. 5) 一 样 使 用 深度 优先 扩展 。 先 剪 枝 和 后 剪 枝 选项 都 是 通过 训练 数据 上 的 交叉 验证 
来 寻找 扩展 的 最 佳 使 用 数量 ， 两 者 都 是 可 行 的 。 然 而 对 于 完全 生长 树 来 说 ， 最 好 优先 和 深 
度 优先 算法 完全 一 样 。BFTree 的 剪 枝 方法 得 到 的 树 结构 不 是 像 深 度 优 先 算法 所 得 到 的 树 
而 是 一 种 不 同 的 经 过 剪 枝 的 树 结构 。 

SimpleCart 是 一 种 用 于 分 类 的 决策 树 学 习 器 ， 它 使 用 了 最 小 成 本 复杂 的 剪 枝 策略 (OU 
6. 1 节 ) 。 尽 管 是 以 开拓 该 种 类 的 先锋 学 习 器 CART 命名 (Breiman 等 ，1984) ， 但 是 它们 
的 相似 性 也 就 只 有 这 么 多 : 它 并 没有 提供 任何 CART 以 外 的 特征 。 用 户 可 以 设置 每 个 叶子 
的 最 小 实例 数目 、 用 于 创建 树 的 训练 数据 百分比 ， 以 及 剪 枝 过 程 中 所 用 交叉 验证 折 的 
大 小 。 

NBTree 是 决策 树 和 朴素 贝 叶 斯 的 混合 。 它 所 创建 的 树 的 叶 可 用 于 所 有 到 达 该 叶子 的 
实例 的 朴素 贝 叶 斯 分 类 器 。 在 构建 树 时 ， 交 叉 验证 被 用 于 决定 一 个 结 点 是 否 应 当 进 一 步 被 
分 裂 ， 还 是 改 用 朴素 贝 叶 斯 模型 (Kohavi，1996 ) 。 

M5P 是 6. 6 节 中 描述 过 的 模型 树 学 习 器 。 

LMT 可 用 于 建立 Logistic 模型 树 ( 见 8.6 节 )。LMT 还 可 处 理 二 类 及 多 类 值 目标 变量 、 
数值 和 名 目 属性 及 缺失 值 。 当 在 一 个 结 点 上 拟 合 一 个 Logistic 回归 函数 时 ， 它 通过 交叉 验 
证 来 决定 一 次 运行 多 少 次 循环 ， 然 后 将 该 运行 次 数 应 用 到 树 的 所 有 其 他 结 点 ， 而 不 是 在 每 
个 结 点 都 进行 交叉 验证 。 这 种 探索 方式 〈 用 户 可 将 此 方式 关闭 ) 只 对 精确 度 稍 有 影响 ， 但 
却 在 相当 程度 上 缩短 了 运行 时 间 。 另 外 ， 用 户 还 可 人 为 地 设 定 提升 循环 的 次 数 ， 或 者 使 用 
基于 Akaike 信息 准则 更 快捷 的 探索 方法 ， 而 不 是 用 交叉 验证 。 加 权 剪 枝 可 以 用 来 进一步 
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缩短 运行 时 间 。 通 常情 况 下 ， 使 用 交叉 验证 才能 使 错误 分 类 率 最 低 ， 但 也 可 以 选择 使 用 概 
率 的 方 均 根 误差 。 分 裂 的 依据 可 基于 C4.5 的 信息 增益 (默认 设置 ) 或 LogitBoost 残 差 ， 
目的 是 力求 提高 残留 部 分 的 纯度 。LMT 使 用 最 小 成 本 复杂 剪 枝 方 法 〈 见 6. 1 节 ) 产生 一 个 
紧凑 的 树 结构 。 

FT 创建 一 棵 函数 树 (Gama, 2004), ， 即 分 类 树 的 线性 函数 位 于 叶子 结 点 ， 内 部 结 点 
也 可 以 视 情 况 而 与 叶子 结 点 一 样 。 它 创建 在 LMT 实现 之 上 ， 扩 展 了 属性 选择 ， 目 的 是 通 
过 创建 合成 属性 来 实现 内 部 结 点 的 分 裂 ， 这 里 的 合成 属性 保留 了 由 结 点 的 Logistic 回归 模 
型 预测 得 到 的 类 概率 。 与 TML —FE, C4. 5 分 裂 准 则 也 用 于 选择 应 用 分 裂 的 属性 。 被 选中 
的 合成 属性 ， 其 分 裂 并 与 坐标 平行 而 是 倾斜 的 。 不 同 于 TML 的 是 ，FT 使 用 标准 C4. 5 剪 枝 
而 不 是 最 小 成 本 复杂 度 剪 枝 。 用 户 用 算法 创建 带 功能 的 树 时 ， 可 以 选择 仅 在 叶子 结 点 上 或 
仅 在 内 部 结 点 上 ， 或 者 既 在 叶子 结 点 上 又 在 内 部 结 点 上 进行 。 

ADTree 用 提升 方法 为 二 类 问题 生成 一 个 交互 式 决策 树 〈 见 8.6 节 )。 提 升 循环 的 次 数 
只 是 其 中 的 一 个 参数 ， 且 该 参数 可 以 调节 ， 以 便 适 应 数据 集 和 在 复杂 程度 和 精确 度 之 间 进 
行 任意 折 中 。 除 非 发 生 结 点 的 合并 ， 否 则 每 次 循环 会 在 树 上 增加 三 个 结 点 (一 个 分 裂 结 点 
和 两 个 预测 结 点 ) 。 默 认 的 搜索 方法 是 穷 举 搜索 (扩展 至 所 有 路 径 ); 其 余 的 方法 则 是 探 
索 式 的 ， 并 且 要 快 很 多 。 用 户 可 决定 是 否 存储 实例 数据 用 于 可 视 化 。LADTree 是 一 种 交替 
式 决 策 树 算法 ， 它 可 以 处 理 基于 LogitBoost 算法 (Holmeset 等 ，2002) 的 多 类 问题 。 就 像 
ADTree 一 样 ， 提 升 迭代 的 次 数 是 一 个 可 以 依 手 边 数据 进行 调整 的 参数 ,该 次 数 决定 了 结 
构 树 的 尺寸 。 


11. 4.3 规则 


前 面 的 表 11-5 列 出 了 许多 生成 规则 的 方法 。 

DecisionTable 生成 一 个 决策 表 多 数 分 类 器 (IL 7.1 节 )。 它 使 用 最 佳 优 先 探 索 评 估 属 
性 子 集 ， 并 且 可 用 交叉 验证 进行 评估 (Kohavi, 1995b) 。 其 中 一 个 选项 使 用 最 近邻 方法 并 
基于 同样 的 属性 集 来 决定 每 个 未 被 决策 表 中 所 覆盖 的 实例 的 类 属性 ， 这 里 覆盖 指 的 是 实例 
必须 与 决策 表 中 的 某 个 具体 条 目 相 吻合 ， 而 不 是 仅仅 与 该 表 的 全 局 多 数 相 一 致 。 

DTNB 是 一 种 结合 了 决策 表 和 朴素 贝 叶 斯 (Hall 和 Frank, 2008) 的 混合 分 类 器 。 算 
法 将 属性 划分 为 两 个 不 同 的 子 集 ， 一 个 由 朴素 贝 叶 斯 建 模 得 到 ， 另 一 个 由 决策 表 得 到 。 这 
里 使 用 一 种 贪 焚 搜索 方法 来 决定 哪些 属性 应 该 由 朴素 贝 叶 斯 建 模 得 到 ， 这 种 方法 以 留 一 交 
叉 验 证 为 向 导 ， 以 由 决策 表 建 模 得 到 的 所 有 属性 为 起 始 条 件 。 此 外 ， 该 方法 还 考虑 了 从 模 
型 中 完全 删除 属性 的 操作 。 利 用 贝 叶 斯 规则 可 以 将 这 两 种 模型 得 到 的 预测 进行 整合 得 到 一 
个 总 预测 。 用 户 可 以 选择 用 于 交叉 验证 的 评估 度量 : 分 类 问题 的 选项 包括 准确 率 、 类 概率 
的 方 均 根 误差 、 类 概率 的 平均 绝对 差 以 及 ROC 曲线 下 面积 。 数 值 型 属性 一 般 使 用 方 均 根 
误差 。 

OneR 是 只 含有 如 下 一 个 参数 的 1R 分 类 器 ( 见 4.1 节 )， 这 个 参数 就 是 最 小 的 离散 桶 
的 大 小 。 图 11-22 给 出 劳资 协商 数据 的 输出 结果 。Classifier model (分 类 模型 ) 部 分 显示 
了 wage-increase-first-year 已 经 被 作为 规则 产生 的 依据 ， 在 值 为 2.9 的 地 方 产生 一 个 了 分 裂 
将 结果 为 bad 的 实例 从 good 中 分 离 出 来 〈 若 属性 的 值 已 缺失 ， 则 类 标的 值 也 是 good) 。 规 
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则 下 面 ， 是 根据 括号 里 的 规则 进行 分 类 得 到 的 正确 分 类 实例 的 百分比 。 
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Run information === 


Scheme: weka.classifiers.rules.OneR -B 6 

Relation: labor-neg-data 

Instances: 57 

Attributes: 17 
duration 
wage-increase-first-year 
wage-increase-second-year 
wage-increase-third-year 
cost-of-living-adjustment 
working-hours 
pension 
standby-pay 
shift-differential 
education-allowance 
statutory-holidays 
vacation 
longterm-disability-assistance 
contribution-to-dental-plan 
bereavement-assistance 
contribution-to-health-plan 
class 

Test mode: 10-fold cross-validation 


--- Classifier model (full training set) 


wage-increase-first-year: 
« 2.9 -» bad 
>= 2.9 -> good 
? -» good 

(48/57 instances correct) 


Time taken to build model: 0.01 seconds 


Correctly Classified Instances 75.4386 $ 
Incorrectly Classified Instances 24.5614 % 
Kappa statistic 

Mean absolute error 

Root mean squared error 

Relative absolute error 

Root relative squared error 

Total Number of Instances 


--- Detailed Accuracy By Class --- 


TP Rate FP Rate Precision Recall F-Measure ROC Area Class 
0.45 0.081 0.75 0.45 0.563 0.684 bad 
0.919 0.55 0.756 0.919 0.829 0.684 good 
Weighted Avg. 0.754 0.385 0.754 0.754 0.736 0.684 


Confusion Matrix --- 


<-- classified as 





11-22 劳资 协商 数据 的 OneR 输出 结果 


ConjunctiveRule 只 学 习 单一 的 规则 ， 用 以 预测 数值 型 或 名 目 型 的 类 值 。 对 于 未 被 规则 
覆盖 的 测试 实例 ， 则 指定 为 未 被 覆盖 的 训练 实例 的 默认 类 值 (或 分 布 ) 。 先 计算 每 个 前 提 
条 件 的 信息 增益 〈 名 目 型 的 类 ) 或 方差 缩减 (数值 型 的 类 )， 然 后 用 减 小 误差 的 前 枝 对 规 
则 进行 剪 枝 。ZeroR 更 为 简单 ， 它 只 需 预测 测试 数据 的 多 数 类 ( 若 为 名 目 型 ) 或 平均 值 
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( 若 为 数值 型 ) Prism 实现 规则 的 初级 覆盖 算法 〈 见 4.4 节 )。 

PART 由 部 分 决策 树 中 获取 规则 ( 见 6. 2 节 )。 它 使 用 与 4. 8 中 同样 的 用 户 自 定义 的 
参数 ， 利 用 C4. 5 的 探索 方法 来 生成 树 。 11-23 给 出 了 劳资 协商 数据 的 PART 输出 结果 。 
这 里 得 到 了 三 条 规则 ， 三 条 规则 将 按 顺 序 处 理 ， 任 何 测试 实例 的 预测 结果 都 会 成 为 第 一 个 
起 作用 规则 的 输出 结果 。 最 后 ， 规 则 “catch-all” 一 定 会 起 作用 。 与 J48 一 样 ， 括 号 中 规 
则 后 面 的 数字 给 出 了 被 规则 覆盖 的 实例 数量 ， 存 在 错误 分 类 时 该 数字 后 面 还 会 给 出 错误 分 
类 的 实例 数目 。 


= Run information 


Scheme: weka.classifiers.rules.PART -M 2 -C 0.25 -Q 1 

Relation: labor-neg-data 

Instances: 57 

Attributes: 17 
duration 
wage-increase-first-year 
wage-increase-second-year 
wage-increase-third-year 
cost-of-living-adjustment 
working-hours 
pension 
standby-pay 
shift-differential 
education-allowance 
statutory-holidays 
vacation 
longterm-disability-assistance 
contribution-to-dental-plan 
bereavement-assistance 
contribution-to-health-plan 
class 

Test mode: 10-fold cross-validation 


Classifier model (full training set) === 
PART decision list 
wage-increase-first-year > 2.5 AND 
longterm-disability-assistance = yes AND 


statutory-holidays > 10: good (25.67) 


wage-increase-first-year <= 4 AND 
working-hours > 36: bad (19.4/1.58) 


: good (11.93/2.18) 
Number of Rules : 3 


Time taken to build model: 0.07 seconds 


-- Stratified cross-validation --- 
-- Summary --- 


Correctly Classified Instances 78.9474 $ 
Incorrectly Classified Instances 21.0526 % 
Kappa statistic 

Mean absolute error 

Root mean squared error 

Relative absolute error 

Root relative squared error 

Total Number of Instances 





图 11-23 ”劳资 协商 数据 的 PART 输出 结果 
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=== Detailed Accuracy By Class = 
TP Rate FP Rate Precision Recall F-Measure ROC Area Class 
0.7 0.162 0.7 0.7 0.7 0.726 bad 
0.838 0.3 0.838 0.838 0.838 0.726 good 
Weighted Avg. 0.789 0.252 0.789 0.789 0.789 0.726 


--- Confusion Matrix --- 


<-- classified as 


b 
6 | 
31 | 





图 11-23 ( 续 ) 


M5 Rules 利用 M5 ' 生 成 的 模型 树 获取 回归 规则 ( 0,6. 5 节 )。Ridor 从 产生 默认 规则 的 
特例 中 学 习 规则 ( 见 6.2 节 ) ， 它 用 增 量 减少 - 误差 剪 枝 法 来 找 出 具有 最 小 误差 率 的 特例 ， 
从 而 为 每 个 特例 找到 最 好 的 特例 ， 并 依 此 进行 循环 。 

JRip 实现 RIPPER (W 6.2 节 )， 包 括 规则 集 的 探索 式 全 局 优化 (Cohen, 1995), 
NNge 是 一 种 利用 非 租 套 的 泛 化 样本 集 来 产生 规则 的 最 近邻 方法 〈 见 6.5 节 ) 。 


11.4.4 函数 


d 11-5 中 的 函数 类 别 包 括 一 组 多 种 类 的 分 类 器 ， 这 些 分 类 器 可 以 以 一 种 自然 合理 
的 方式 写成 数学 方程 式 。 而 决策 树 和 规则 等 其 他 的 分 类 器 则 不 可 以 〈 当 然 也 有 例外 : Fh 
素 贝 叶 斯 就 有 一 个 简单 的 数学 公式 ) 。 这 些 函 数 中 有 四 种 实现 是 线性 回归 ( 见 4.6 节 )。 
SimpleLinearRegression 基于 一 个 单独 的 属性 学 习 一 个 线性 回归 模型 ， 它 选择 能 产生 最 小 
平方 误差 的 那个 属性 。 缺 失 值 和 非 数值 型 属性 在 选择 时 不 予 考虑 。 图 11-24 给 出 了 Sim- 
pleLinearRegression 在 CPU 性 能 数据 上 的 输出 结果 。 这 个 例子 中 ， 具 有 最 小 平方 误差 的 
属性 是 MMAX。 

LinearRegression 所 做 的 是 标准 的 最 小 二 乘 多 元 线性 回归 ， 并 且 可 以 选择 性 地 进行 属性 
选择 ， 选 择 方 式 要 么 使 用 反 向 删除 ( 见 7. 1 节 ) 逐一 选择 ， 要 么 用 全 部 属性 建立 一 个 完整 
模型 ， 将 这 些 属性 按 它们 的 标准 化 系数 进行 降序 排列 ， 然 后 逐一 去 掉 每 个 项 直至 满足 终止 
条 件 ( 这 种 方法 在 6.6 节 中 关于 剪 枝 树 的 论述 中 曾 做 过 描述 ， 当 时 的 情况 与 现在 略 有 不 
同 ) 。 两 种 选择 方式 用 的 都 是 6.7 节 中 所 讨论 的 AIC 终止 准则 的 其 中 一 个 版 本 。 实 现 中 含 
有 两 种 进一步 的 细 分 : 一 种 是 探测 共 线 属性 的 启发 式 机 制 (可 关 掉 ); 另 一 种 是 能 够 使 恶 
化 的 案例 得 以 稳定 并 通过 加 上 较 大 的 惩罚 系数 降低 过 度 拟 合 的 ridge 参数 。 从 技术 角度 讲 ， 
LinearRegression 实现 岭 回归 ， 这 在 标准 的 统计 教科 书 中 有 专门 的 描述 。 

LeastMedSq 是 一 种 使 到 回归 线 的 差异 的 平方 中 值 〈 而 不 是 平均 值 ) 最 小 化 的 稳健 线性 
回归 方法 ( 见 7.5 47) (Rousseeuw 和 Leroy, 1987) 。 它 将 标准 线性 回归 反复 应 用 于 数据 的 
子 样本 ， 然 后 把 具有 最 小 中 值 平方 误差 的 解决 方法 显示 出 来 。 

PaceRegression 用 新 的 Pace 回归 技术 (Wang 和 Witten, 2002) 建立 线性 回归 模型 。 当 
属性 比较 多 时 ，Pace 回归 特别 擅长 决定 哪些 属性 应 该 被 删除 。 实 际 上 ， 在 某 些 常见 情况 
下 ， 当 属性 的 数量 趋 于 无 限 大 时 ，Pace 回归 被 证 明 是 最 佳 的 选择 。 

IsotonicRegression 实现 了 学 习 得 到 一 个 基于 pair-adjacent violators 方法 ( 见 7.7 节 ) 的 
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保 序 回归 函数 。PLSClassifier 学 习 一 个 偏 最 小 二 乘 回 归 模 型 ( 见 7.3 节 )。 它 利用 PLSFilter 
将 训练 数据 转换 到 偏 最 小 二 乘 回归 空间 中 ， 然 后 从 转换 过 的 数据 中 学 习 得 到 一 个 线性 回 
JH, fr PLSClassifier 的 对 象 编辑 器 中 ， 所 有 PLSFilter 的 选项 都 是 用 户 可 选 的 。 


=== Run information === 


Scheme : weka.classifiers.functions.SimpleLinearRegression 
Relation: cpu 
Instances: 209 
Attributes: 7 
MYCT 
MMIN 
MMAX 
CACH 
CHMIN 
CHMAX 
class 
Test mode: 10-fold cross-validation 


--- Classifier model (full training set) --- 


Linear regression on MMAX 


0.01 * MMAX - 34 


Time taken to build model: 0 seconds 


Correlation coefficient 
Mean absolute error 

Root mean squared error 
Relative absolute error 
Root relative squared error 
Total Number of Instances 





图 11-24 CPU 性 能 数据 的 SimpleLinearRegression 输出 结果 


SMO 采用 多 项 式 或 高 斯 核 (Plat, 1998; Keerthi 等 ，2001) 来 实现 序列 最 小 优化 算 
法 ， 该 算法 用 于 训练 一 个 支持 向 量 分 类 器 (0.6.4 节 )。 数 据 中 的 缺失 值 全 部 被 蔡 换 ; 名 
目 属性 转换 成 二 值 属性 ; 且 默 认 条 件 下 属性 须 进 行规 范 化 ， 注 意 ， 输 出 结果 中 的 系数 是 基 
于 经 过 规范 化 的 数据 。 用 户 可 将 规范 化 功能 关闭 ， 或 将 输入 的 值 标准 化 为 零 平 均值 和 单位 
方差 。 成 对 分 类 多 用 于 多 类 问题 。Logistic 回归 模型 可 与 支持 向 量 机 相 吻 合 以 获取 概率 评 
估 。 对 于 多 类 的 情形 ， 所 预测 的 概率 是 成 对 耦合 的 〈Hastie 和 Tibshirani, 1998) 。 在 处 理 
稀 朴 实例 时 ， 将 规范 化 功能 关闭 可 加 快 处 理 速度 。 

图 11-25 给 出 了 将 SMO 应 用 于 昔 尾 花 数据 上 的 输出 结果 。 这 里 使 用 一 个 指数 为 1 的 多 
项 式 内 核 使 模型 成 为 一 个 线性 支持 向 量 机 。 由 于 高 尾 花 数据 包含 了 3 种 类 标 值 ， 所 以 得 到 
了 3 个 二 元 SMO 模型 输出 ， 也 就 是 一 个 用 于 分 离 所 有 可 能 类 标 值 对 的 超 平面 。 此 外 ， 由 
于 向 量 机 是 线性 的 ， 所 以 超 平面 表示 为 原始 空间 中 属性 值 的 函数 〈 名 目 属性 也 是 如 此 ) 。 
当 多 项 式 超 平面 内 核 的 指数 设 为 2 时 ， 支 持 向 量 机 变 为 非 线 性 的 ， 这 种 情况 下 的 结果 见 
图 11-26。 前 面 共 有 3 种 二 元 SMO 模型 ， 而 这 里 的 超 平面 则 表现 为 支持 向 量 的 函数 〈 见 
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6.4 节 )。 每 个 支持 向 量 由 一 对 尖 括 号 括 起 来 ， 向 量 带 有 系数 a. MBER B (与 ao 一 
样 )， 在 每 个 函数 的 最 后 部 分 给 出 来 。 





Scheme: weka.classifiers.functions.SMO -C 1.0 -L 0.0010 -P 1.0E-12 -N 
0 -V -1-W 1 -K "weka.classifiers.functions.supportVector.PolyKernel -C 
250007 -E 1.0" efd 

Relation: iris 

Instances: 150 

Attributes: 5 

sepallength 
sepalwidth 
petallength 
petalwidth 
class 
Test mode: 10-fold cross-validation 


Classifier model (full training set) --- 


Kernel used: Linear Kernel: K(x,y) = «x,y» 
Classifier for classes: Iris-setosa, Iris-versicolor 
BinarySMO 
Machine linear: showing attribute weights, not support vectors. 
0.6829 * (normalized) sepallength + -1.523 * (normalized) 
sepalwidth 
2.2034 * (normalized) petallength + 1.9272 * (normalized) 


petalwidth 
0.7091 


Number of kernel evaluations: 352 (70.32$ cached) 
Classifier for classes: Iris-setosa, Iris-virginica 
BinarySMO 
Machine linear: showing attribute weights, not support vectors. 
0.5886 * (normalized) sepallength +  -0.5782 * (normalized) 
sepalwidth 


1.6429 * (normalized) petallength + 1.4777 * (normalized) 
petalwidth 


1.1668 
Number of kernel evaluations: 284 (68.996$ cached) 
Classifier for classes: Iris-versicolor, Iris-virginica 


BinarySMO 


Machine linear: showing attribute weights, not support vectors. 


0.3176 * (normalized) sepallength + -0.863 * (normalized) 
sepalwidth 

3.0543 * (normalized) petallength + 4.0815 * (normalized) 
petalwidth 


4.5924 
Number of kernel evaluations: 453 (61.381$ cached) 


Time taken to build model: 0.13 seconds 





图 11-25 SEES SMO 输出 结果 
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Stratified cross-validation --- 
--- Summary --- 

Correctly Classified Instances 
Incorrectly Classified Instances 
Kappa statistic 

Mean absolute error 

Root mean squared error 

Relative absolute error 

Root relative squared error 

Total Number of Instances 





=== Detailed Accuracy By Class --- 


TP Rate FP Rate Precision Recall F-Measure ROC Area Class 

4 1 1 1 1 Iris-setosa 
0.98 0.907 0.98 0.942 0.965 Iris-versicolor 
0.9 n 0.978 0.9 0.938 0.97 Iris-virginica 
0.9 


Weighted 6 : 0.962 0.96 0.96 0.978 


Confusion Matrix === 


<-- classified as 
Iris-setosa 
Iris-versicolor 


a 
b 
e Iris-virginica 








图 11-25 (£X) 


Run information --- 


Scheme:  weka.classifiers.functions.SMO -C 1.0 -L 0.0010 -P 1.0E-12 -N 
0 -V -1 -W 1 -K "weka.classifiers.functions.supportVector.PolyKernel 
-C 250007 -E 2.0" 
Relation: iris 
Instances: 150 
Attributes: 5 
sepallength 
sepalwidth 
petallength 
petalwidth 
class 
Test mode: 10-fold cross-validation 


Classifier model (full training set) 


Kernel used: 
Poly Kernel: K(x,y) = «x,y»^2.0 


Classifier for classes: Iris-setosa, Iris-versicolor 
BinarySMO 


.333333 0.166667 0.457627 0.375 » * X] 
«0.222222 0.541667 0.118644 0.166667 » 
«0.138889 0.416667 0.067797 0.083333 » 
«0.166667 0.416667 0.067797 0.041667 » 
«0.222222 0.208333 0.338983 0.416667 » 
«0.055556 0.125 0.050847 0.083333 » * X] 
«0.027778 0.375 0.067797 0.041667 » * X] 
«0.166667 0.166667 0.389831 0.375 » * X] 
«0.361111 0.208333 0.491525 0.416667 » * 
«0.194444 0.423729 0.375 » * X] 
«0.194444 0.416667 0.101695 0.041667 » * 
«0.138889 0.458333 0.101695 0.041667 » * 
«0.194444 0.125 0.389831 0.375 » * X] 
«0.361111 0.375 0.440678 0.5 » * X] 
«0.138889 0.416667 0.067797 0 > * X] 
«0.194444 0.625 0.101695 0.208333 » * X] 


E 11-26 高 尾 花 数据 的 非 线性 内 核 SMO 输出 结 


* 
* 
* 
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1 * «0.333333 0.166667 0.474576 0.416667 » * X] 
1 * «0.388889 0.25 0.423729 0.375 » * X] 
0.8085 


Number of support vectors: 18 

Number of kernel evaluations: 2416 (72.564$ cached) 
Classifier for classes: Iris-setosa, Iris-virginica 
BinarySMO 


1 .166667 0.208333 0.59322 0.666667 » * X] 
* «03055556 0.125 0.050847 0.083333 > * XJ 
«0.555556 0.333333 0.694915 0.583333 » * X] 
«0.222222 0.541667 0.118644 0.166667 » * X] 
«0.472222 0.083333 0.677966 0.583333 » * X] 
«0.194444 0.625 0.101695 0.208333 » * X] 
.0183 


Number of support vectors: 6 


Number of kernel evaluations: 1364 (60.726% cached) 
Classifier for classes: Iris-versicolor, Iris-virginica 


BinarySMO 


1 * «0.555556 0.208333 0.677966 0.75 > * X] 

* «0.305556 0.416667 0.59322 0.583333 » * X] 
«0.666667 0.458333 0.627119 0.583333 » * X] 
«0.472222 0.583333 0.59322 0.625 » * X] 
«0.444444 0.416667 0.694915 0.708333 » * X] 
«0.527778 0.083333 0.59322 0.583333 » * X] 
«0.416667 0.291667 0.694915 0.75 » * X] 
«0.472222 0.291667 0.694915 0.625 » * X] 
«0.555556 0.375 0.779661 0.708333 » * X] 
«0.666667 0.416667 0.677966 0.666667 » * X] 
«0.611111 0.416667 0.762712 0.708333 » * X] 
«0.5 0.375 0.627119 0.541667 » * X] 
«0.722222 0.458333 0.661017 0.583333 > x] 
«0.472222 0.083333 0.677966 0.583333 » x] 
«0.583333 0.458333 0.762712 0.708333 » X] 
«0.611111 0.5 0.694915 0.791667 » * X] 

«0.5 0.416667 0.661017 0.708333 » * X] 
«0.694444 0.333333 0.644068 0.541667 » x] 
«0.5 0.416667 0.610169 0.541667 » * X] 
«0.416667 0.291667 0.694915 0.75 » * X] 
«0.527778 0.333333 0.644068 0.708333 » * X] 
«0.444444 0.5 0.644068 0.708333 » * X] 

«0.5 0.25 0.779661 0.541667 » * X] 
«0.555556 0.291667 0.661017 0.708333 » * X] 
«0.361111 0.333333 0.661017 0.791667 » * X] 
«0.555556 0.208333 0.661017 0.583333 » * X] 
«0.555556 0.125 0.576271 0.5 > * X] 
«0.555556 0.333333 0.694915 0.583333 » * X] 
«0.166667 0.208333 0.59322 0.666667 » * X] 
«0.805556 0.416667 0.813559 0.625 » * X] 
«0.555556 0.541667 0.627119 0.625 » * X] 
«0.472222 0.416667 0.644068 0.708333 » * X] 
«0.361111 0.416667 0.59322 0.583333 » * X] 
«0.583333 0.5 0.59322 0.583333 » * X] 
«0.472222 0.375 0.59322 0.583333 » * X] 
«0.611111 0.333333 0.610169 0.583333 » * X] 


+ XO X OX X OF OF 


oOooooooooo 


+ + ee OF FF OR FF OF OF OH OH HR OH OH OH OF 
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1 
i 
1 
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1 
1 
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1 
1 
1 
1 
1 
1 
1 
L 
1 
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.5378 
Number of support vectors: 36 


Number of kernel evaluations: 3524 (66.711$ cached) 


Time taken to build model: 0.06 seconds 





图 11-26 (£X) 
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tratified cross-validation --- 
ummary --- 


S 
S 


Correctly Classified Instances 144 
Incorrectly Classified Instances 6 

Kappa statistic 0.94 
Mean absolute error 0.2311 
Root mean squared error 0.288 
Relative absolute error 52 $% 
Root relative squared error 61.101 $% 
Total Number of Instances 150 

=== Detailed Accuracy By Class === 


TP Rate FP Rate Precision Recall F-Measure ROC Area Class 
1 0 T 1 i 1 Iris-setosa 
0.94 0.03 0.94 0.94 0.94 0.955 Iris-versicolor 
0.94 0.03 0.94 0.94 0.94 0.972 Iris-virginica 
Weighted 0.96 0.02 0.96 0.96 0.96 0.976 


Confusion Matrix --- 


«-- classified as 

a - Iris-setosa 

b - Iris-versicolor 
c = Iris-virginica 





图 11-26 (9) 


SMOreg 实现 序列 最 小 优化 算法 用 于 学 习 得 到 支持 向 量 回归 模型 (Smola 和 Scholkopf, 
2004) 。 

SPegasos (Shalev-Shwartz &, 2007) 利用 随机 梯度 下 降 (016.447) 学 习 一 个 用 于 
二 分 类 问题 的 线性 支持 向 量 机 。 默 认 情 况 下 ， 缺 失 值 将 由 规范 化 之 后 的 属性 均值 / 众 数 
来 替代 。 用 户 可 以 指定 要 执行 的 迭代 次 数 〈 即 训练 数据 上 的 迭代 ) 和 “lambal” 的 值 ， 
“lambal” 是 一 种 用 于 控制 拟 合 紧密 程度 的 规则 化 常数 。 它 提供 两 种 衰减 函数 : 一 种 是 
用 于 学 习 支 持 向 量 机 的 贸 链 衰减 (默认 设置 ); 另 一 种 是 日 志 衰 减 ， 其 结果 是 一 个 
Logistic 回 归 而 不 是 一 个 支持 向 量 机 。SPegasos 的 训练 模式 可 以 是 分 批 式 ， 也 可 以 是 一 次 
一 个 实例 的 增 量 式 。 若 为 增 量 式 训练 ， 则 每 个 实例 都 只 处 理 一 次 ， 因 为 迭代 次 数 参 数 将 
不 会 有 任何 影响 。 

VotedPerceptron 是 投票 感知 机 算法 ( 016.4 15), Winnow (0.4.6 45) 修改 基本 的 感 
知 机 以 便利 用 乘法 更 新 。 该 实现 允许 有 不 同 于 1/a 的 第 二 个 倍数 B 以 便 用 于 图 4-11 中 的 
除法 运算 ,并 且 还 提供 所 用 算法 的 平衡 版 本 。 

GaussianProcesses 实现 了 用 于 非 线性 回归 的 贝 叶 斯 高 斯 处 理 技术 。 用 户 可 以 指定 核 函 
数 以 及 “噪声 ”的 值 ,“ 噪 声 ” 也 是 一 种 用 于 控制 拟 合 紧 密 程度 的 规则 化 常数 。 用 户 可 以 
在 学 习 回 归 之 前 ， 选 择 规范 化 的 训练 数据 或 者 标准 的 训练 数据 。 对 于 点 估计 ， 该 方法 与 核 
岭 回 归 效 果 一 样 。 

SimpleLogistic 建立 Logistic 回归 模型 ( 见 4.6 节 ) ， 使 用 以 简单 回归 函数 为 基 学 习 器 的 
LogitBoost 来 拟 合 这 些 模型 并 用 交叉 验证 来 决定 进行 多 少 次 和 迭代， 因为 交叉 验证 可 支持 自 
动 属性 选择 (Landwehr 等 ，2005 ) SimpleLogistic 产生 一 棵 由 一 个 独立 结 点 组 成 的 训 退 逻 
辑 模型 树 ， 它 也 支持 前 面 用 于 LMT 的 那些 选项 。 
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Logistic 是 另外 一 种 建立 在 le Cessie 和 van Houwelingen (1992) 研究 成 果 基础 上 的 
用 于 生成 和 利用 多 项 式 Logistic 回归 模型 和 岭 估 计 器 的 实现 方法 ， 该 方法 通过 为 回归 项 
加 上 较 大 的 惩罚 系数 来 防止 过 度 拟 合 。 图 11-27 显示 了 将 其 应 用 到 营 尾 花 数据 上 的 输 
出 结果 。 回 归 函 数 的 系数 以 列表 的 形式 给 出 ， 除 了 最 后 一 个 类 以 外 每 个 类 对 应 于 其 中 
一 个 。 给 定 m 个 输入 属性 和 儿 个 类 标 ， 对 类 标 j 的 预测 概率 (除了 最 后 一 个 类 以 外 ) 
如 下 : 
exp(w + wia, + wha, +++ + Wa,) 





Pr[j | a@,,a,,°", 4, | = k-1 
(1 + Y, exp( uy + wa, + wha, tc + wa) 
j=l 


其 中 wh 是 类 标 j 的 截 距 (intercept term) 。 最 后 一 个 类 标 k 的 概率 则 按 如 下 公式 给 定 : 








k-l 
l - Y, Pr la ,0 
jal 





在 回归 系数 表 的 下 方 有 另 一 个 表格 ， 这 个 表格 给 出 了 每 个 输入 属性 以 及 类 标 值 的 优势 
tk (odds ratio) 。 对 某 个 给 定 属性 ， 这 个 值 指示 的 是 将 其 他 属性 的 值 固 定好 以 后 ， 该 属性 
对 类 标 值 的 影响 。 

RBFNetwork 实现 了 一 个 高 斯 径 向 基 函 数 网 络 ( 见 6.4 节 )， 它 用 均值 推导 出 隐藏 项 
的 中 心 点 及 宽度 ， 并 将 由 隐藏 层 得 到 的 输出 结果 合并 起 来 。 合 并 的 方式 是 ， 如 果 类 是 名 目 
型 的 ， 就 用 Logistic 回归 ; 如 果 是 数值 型 的 ， 则 用 线性 回归 。 先 将 基 函 数 的 激活 〈 即 输出 ) 
规范 化 ， 使 得 相 加 总 和 为 1， 然后 将 它们 输入 线性 模型 。 用 户 可 指定 大 ， 即 聚 类 的 数量 ; 
名 目 型 类 问题 的 Logistic 回归 循环 次 数 的 最 大 值 ; 相关 聚 类 的 最 小 标准 差 ; 以 及 回归 的 岭 
值 。 如 果 类 是 名 目 型 的 ， 则 将 大 均值 分 别 应 用 于 每 个 类 ， 从 而 为 每 个 类 导出 大 个 聚 类 。 

LibSVM 和 LibLINEAR 都 是 支持 对 Weka 使 用 的 支持 向 量 机 和 Logistic 回归 进行 第 三 方 
实现 的 包装 分 类 吉 (wrapper classifier) 。 要 使 用 它们 ， 就 必须 确保 问题 中 用 于 程序 库 的 jar 
文件 在 Java 虚拟 机 的 class 路 径 中 。 前 者 为 用 户 提供 接口 来 使 用 支持 向 量 分 类 器 和 回归 算 
法 (Chang 和 Lin，2001) 的 LIBSVM 程序 库 ， 这 个 知识 库 为 多 类 别 分 类 、 回 归 以 及 一 分 
类 等 问题 提供 了 多 种 不 同 的 支持 向 量 机 ， 用 户 还 可 以 选择 使 用 线性 、 多 项 式 、 径 向 基 函 数 
或 者 S 型 核 函 数 。 后 则 让 用 户 可 以 使 用 LIBLINEAR Æ (Fan 4$, 2008) ， 这 个 库 包 含 了 用 
于 分 类 和 Logistic 回归 问题 的 线性 支持 向 量 机 的 快速 实现 。 


11.4.5 神经 网 络 


MultilayerPerceptron 是 一 个 使 用 反 向 传播 进行 训练 的 神经 网 络 ( 016.4 节 )。 尽 管 在 
表 11-5 中 它 是 列 在 函数 的 下 面 ， 但 其 实 它 与 其 他 的 方案 不 相同 ， 因 为 它 有 自己 的 用 户 界 
面 。 如 果 用 户 载 人 天 气 数据 的 数值 型 版 本 ， 调 用 MultilayerPerceptron， 在 它 的 对 象 编辑 器 
中 将 GUI 设 为 True， 并 在 Classify 面板 上 单 击 Start 运行 该 网 络 ， 图 11-28 所 示 的 图 表 就 会 
出 现在 一 个 单独 的 窗口 中 。 该 网 络 有 三 层 : 在 左 侧 每 个 属性 由 一 个 矩形 框 表示 (绿色 )， 
这 是 输入 层 ; 接 下 来 在 它 的 旁边 有 一 个 隐蔽 层 (红色 )， 由 连接 在 一 起 的 所 有 输入 结 点 组 
成 ; 右边 有 一 个 输出 层 (橙色 )。 最 右边 的 标签 表明 输出 结 点 所 代表 的 类 。 数 值 型 类 的 输 
出 结 点 会 自动 转换 成 无 闪 值 的 线性 单元 。 


465 
i 
467 


" 


y) 


332 第 三 部 分 Weka 数据 挖 据 平 台 






















Scheme : weka.classifiers.functions.Logistic -R 1.0E-8 -M -1 
Relation: iris 
Instances: 150 
Attributes: 5 
sepallength 
sepalwidth 
petallength 
petalwidth 
class 
Test mode: 10-fold cross-validation 


== Classifier model (full training set) === 


Logistic Regression with ridge parameter of 1.0E-8 
Coefficients... 

Class 
Iris-setosa 


Variable Iris-versicolor 


sepallength 21.8065 
sepalwidth 4.5648 6.6809 


















petallength -26.3083 -9.4293 
petalwidth -43.887 -18.2859 
Intercept 8.1743 42.637 















Odds Ratios... 





Class 
Iris-setosa 








Variable Iris-versicolor 


sepallength 2954196662.0161 
sepalwidth 96.0426 797.0304 
petallength 0 0.0001 
petalwidth 0 0 

















Time taken to build model: 0.02 








Stratified cross-validation 
Summary --- 











Correctly Classified Instances 
Incorrectly Classified Instances 6 
Kappa statistic 0.94 
0 
0 






Mean absolute error .0287 
Root mean squared error .1424 
Relative absolute error 6.456 $% 
Root relative squared error 30.2139 $ 
Total Number of Instances 









=== Detailed Accuracy By Class --- 








TP Rate FP Rate Precision Recall F-Measure ROC Area Class 








1 0 1 1 1 1 Iris-setosa 

0.92 0.02 0.958 0.92 0.939 0.97 Iris-versicolor 

0.96 0.04 0.923 0.96 0.941 0.975 Iris-virginica 
Weighted 0.96 0.02 0.96 0.96 0.96 0.982 








Confusion Matrix --- 







a b ¢ <-- classified as 

50 0 0 | a = Iris-setosa 
046 4 | b = Iris-versicolor 
0 2 48 Iris-virginica 






图 11-27 BREEN Logistic 输出 结果 


在 单 击 Start 运行 网 络 之 前 ， 用 户 可 通过 加 入 结 点 及 连接 更 新 它 的 结构 。 结 点 可 被 选 
定 或 取消 选 定 。 在 图 11-28a 中 ， 隐 项 和 输出 层 中 的 全 部 6 个 结 点 的 圆心 部 分 都 呈现 灰色 ， 
表明 它们 都 未 被 选 定 。 要 选 定 一 个 结 点 ， 只 需 简单 单 击 它 ， 结 点 的 圆心 就 会 由 灰色 变 为 亮 
黄色 。 要 取消 选 定 一 个 结 点 ， 在 空白 处 右 击 。 要 加 入 一 个 结 点 ， 首 先 确 保 没 有 结 点 被 选 
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定 ， 然 后 在 面板 上 的 任意 位 置 单 击 ， 新 结 点 将 自动 选 定 。 在 图 11-28a 中 ， 在 下 方 的 中 间 
处 ， 一 个 新 结 点 已 经 被 加 入 。 要 将 两 个 结 点 连接 起 来 ， 选 定 起 始 结 点 ， 然 后 单 击 终止 结 
点 。 如 果 有 多 个 起 始 结 点 被 选 定 ， 它 们 都 会 被 连接 到 终止 结 点 。 如 果 用 户 在 空白 处 单 击 ， 
一 个 新 结 点 会 生成 并 作为 终止 结 点 。 注 意 ， 连 接 是 有 方向 的 〈 尽 管 它们 的 方向 未 被 显示 出 
来 )。 起 始 结 点 会 保持 被 选 定 状态 。 这 样 做 的 好 处 是 ， 用 户 只 需 单 击 几 下 鼠标 即 可 加 入 整 
个 隐蔽 层 ， 如 图 11-28b。 要 删除 一 个 结 点 ， 首 先 确保 没有 结 点 被 选 定 ， 然 后 右 击 要 删除 的 


结 点 。 这 样 做 所 删除 的 不 只 是 该 结 点 ， 所 有 指向 该 结 点 的 连接 也 一 起 删除 。 要 删除 一 个 单 
独 的 连接 ， 选 定 一 个 结 点 ， 右 击 该 连接 另外 一 端的 结 点 。 
eo80 Neural Network 





> eer iuge ee x = 
f Start dud. — Learning Rate = 0.3) 
|^ Num Of Epochs 500 Gore 1 
[Accept ) Error per Epoch = 0 Momentum = 0.2 | 
a) 开始 编辑 网 络 ， 添 加 第 二 个 隐藏 层 
990 Neural Network 








E Controls -一 一 一 一 一 一 一 | 
ara h 
f Start 3 Epoch 9 qe 
~” Num Of Epochs 500 p: d 
|f Accept ) Error per Epoch = 0 Momentum = 0.2. || 


Accept ) 
b) 有 两 个 隐藏 层 的 完成 后 的 网 络 


i 
Learning Rate = 0.3 | 


K 11-23 使 用 Weka 的 神经 网 络 图 形 用 户 界面 
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除了 配置 网 络 的 结构 外 ， 用 户 还 可 以 控制 学 习 比 率 和 动量 ( 见 6.4 节 )， 以 及 该 网 络 
扫描 数据 的 总 的 次 数 ， 称 为 迭代 次 数 (epochs)。 用 户 单 击 Start， 网 络 即 开始 训练 ， 且 该 
次 迭代 正常 运行 的 指示 及 该 次 迭代 的 误差 会 显示 在 图 11-28 中 面板 的 左下 方 。 注 意 ， 误 差 
是 基于 整个 网 络 基础 上 的 ， 随 着 误差 值 的 计算 ,网络 也 随 之 变化 。 对 于 数值 型 的 类 来 说 ， 
误差 值 取 决 于 类 是 否 被 规范 化 。 当 时 间 点 的 数量 达到 指定 值 时 ， 网 络 会 停止 ， 此 时 ， 用 户 
可 选择 接受 该 结果 或 将 迭代 次 数 增 至 所 期 望 的 值 ， 再 单 击 Start 继续 训练 。 

MultilayerPerceptron 无 需 通过 图 形 界面 也 可 运行 。 通 过 对 象 编辑 器 设置 几 个 参数 即 可 
控制 它 的 操作 。 如 果 用 户 使 用 图 形 界面 ， 则 可 对 网 络 原始 结构 进行 管理 ， 即 用 户 可 互动 式 
地 对 结构 进行 重新 设 定 。 使 用 autoBuild 即 可 加 入 隐蔽 层 并 将 其 连接 起 来 。 默 认 条 件 下 ， 
隐蔽 层 是 不 显示 的 ， 如 图 11-28a 所 示 ， 但 如 果 不 用 autoBuild， 该 层 是 无 法 显示 出 来 的 ， 
并 且 也 没有 连接 。 人 参数 hiddenLayers 定义 了 哪些 隐蔽 层 会 被 显示 及 每 个 隐蔽 层 含 多 少 结 点 。 
图 11-28a 是 在 值 的 大 小 为 4 的 情况 下 产生 的 (每 个 隐蔽 层 含 4 个 结 点 ) ， 尽 管 图 11-28b 是 
通过 交互 式 加 入 结 点 生成 的 ， 但 它 也 可 同样 通过 将 hiddenLayers 设 为 4、5 (一 个 隐蔽 层 有 
4 个 结 点 ， 另 一 个 有 5 个 结 点 ) 来 产生 。 所 设 的 值 是 一 串 由 逗号 分 隔 的 整数 ; 0 表示 没有 
隐蔽 层 。 进 一 步 说 ， 如 果 不 用 整数 值 ， 则 可 以 使 用 一 些 预 设 的 值 : i 是 属性 的 数量 ，o 是 
类 值 的 数量 ，a 是 二 者 的 平均 值 ， 而 t 表示 它们 的 和 。a 是 默认 值 ， 图 11-28a 就 是 用 它 产 
生 的 。 

参数 learningRate 和 Momentum 为 这 些 变 量 设 定 值 ， 它 们 也 可 通过 图 形 界面 进行 重 设 。 
参数 decay 会 导致 学 习 比 率 随 着 时 间 的 增加 而 下 降 : 它 用 比率 的 起 始 值 除 以 周期 的 数量 来 
得 到 当前 的 比率 。 该 方法 有 时 可 提升 性 能 ， 并 可 防止 网 络 发 散 。 参 数 reset 自动 在 网 络 偏 
离 答案 时 重新 为 网 络 设 定 一 个 较 低 的 学 习 比 率 并 重新 开始 训练 (这 个 选项 仅 在 不 使 用 图 形 
用 户 界 面 时 才 有 效 ) 。 

参数 trainingTime 用 于 设 定 训练 迭代 的 次 数 。 除 此 之 外 ， 还 可 以 提取 一 定 百分比 的 数 
据 专门 用 于 确认 (使 用 validationSetSize) : 然后 训练 继续 进行 直至 其 在 验证 集 上 的 性 能 开 
始 持 续 恶 化 ,或 直至 达到 所 指定 的 迭代 次 数 。 如 果 该 百分比 设 为 0， 则 不 使 用 验证 集 。 参 
数 validationThreshold 决定 了 验证 集 的 误差 可 允许 持续 恶化 多 少 次 才 停 止 训练 。 

在 MultilayerPerceptron 对 象 编辑 器 中 默认 情况 下 所 指定 的 过 滤器 是 NominalToBinaryFil- 
ter。 如 果 所 用 数据 的 名 目 属性 的 确 是 按照 序数 排列 ， 那 么 将 该 过 滤器 关闭 则 可 对 提高 性 能 
有 帮助 。 属 性 可 被 规范 化 〈 用 normalizeAttributes ) ， 一 个 数值 型 的 类 属性 也 可 以 规范 化 
(用 normalizeNumericClass) : 两 种 方式 都 能 提高 性 能 。 


11.4.6 懒惰 分 类 器 


懒惰 分 类 带 把 训练 实例 存储 起 来 直到 进行 分 类 时 才 开 始 真 正 工作 。IB1 是 一 个 基本 的 
基于 实例 的 学 习 器 〈 见 4.7 节 )， 它 能 找 出 与 给 定 的 测试 实例 在 欧 几 里 得 距离 上 最 近 的 训 
练 实例 ， 然 后 将 该 测试 实例 预测 为 与 训练 实例 同样 的 类 。 如 果 有 不 止 一 个 的 训练 实例 都 被 
认为 是 最 接近 的 ， 则 使 用 第 一 个 发 现 的 实例 。 

IBk 是 一 种 大 最 近邻 分 类 器 。 用 于 加 速 寻找 最 近邻 居 任 务 的 搜索 算法 有 很 多 。 默 认 的 
是 一 种 线性 搜索 ， 当 然 还 有 其 他 的 选项 ， 如 kD 树 、 球 树 ， 以 及 所 谓 的 “覆盖 树 ” ( Bey- 
gelzimer 等 ，2006 ) 。 使 用 的 距离 函数 是 搜索 方法 的 一 个 参数 。 默 认 设置 与 IBI 相同 ， 即 欧 
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几 里 得 距离 ， 其 他 选项 包括 切 比 雪夫 、 曼 哈 顿 以 及 闵可夫 斯 基 距 离 。 最 近邻 的 数量 (默认 
k=1) 可 在 对 象 编辑 器 中 明确 指定 或 用 留 一 交叉 验证 自动 确定 ， 这 取决 于 所 指定 的 值 的 上 
限 。 从 一 个 以 上 的 邻居 中 做 出 的 预测 可 按照 这 些 邻 居 与 测试 实例 的 距离 进行 加 权 ， 有 两 个 
不 同 的 方程 式 用 于 将 距离 转换 为 权 。 分 类 器 持 有 的 训练 实例 的 数量 可 通过 设 定 窗口 尺寸 选 
项 来 加 以 限制 。 随 着 新 的 训练 实例 不 断 加 入 ， 将 最 早 的 实例 删除 以 使 训练 实例 保持 为 所 限 
制 的 数量 。 

KStar 是 一 个 使 用 泛 化 距离 函数 的 最 近邻 方法 ， 该 函数 是 基于 转换 基础 的 ( 见 6.5 
节 )。 懒 情 贝 叶 斯 规则 (Lazy Bayesian Rule, LBR) 是 一 个 贝 叶 斯 分 类 器 ， 它 将 所 有 的 处 
理 过 程 都 推迟 到 分 类 时 进行 。 该 分 类 器 从 每 个 测试 实例 的 属性 中 挑选 出 一 组 不 可 以 对 其 进 
行 独立 假设 的 属性 。 除 了 给 定 类 属性 和 所 选 定 属性 以 外 的 其 他 属性 可 被 看 做 相互 独立 。 该 
分 类 器 对 于 小 型 测试 集 来 说 效果 很 好 (Zheng 和 Webb，2000 ) 。 在 应 用 分 类 器 之 前 ， 属 性 
需要 进行 离散 化 处 理 。 

LWL 是 一 个 用 于 局 部 加 权 学 习 的 通用 算法 。 它 用 一 个 基于 实例 的 方法 来 进行 权 指定 ， 
并 根据 经 过 加 权 的 实例 生成 一 个 分 类 器 。 该 分 类 器 是 在 LWL 的 对 象 编辑 器 中 选 定 的 : 一 
个 较 好 的 选择 是 分 类 问题 使 用 朴素 贝 叶 斯 ， 而 回归 问题 则 用 线性 回归 (056.6 节 )。 用 户 
可 设 定 所 用 的 邻居 数量 ， 决 定 核 的 带宽 ， 同 时 用 于 加 权 的 核 的 形状 是 线性 、 反 转 或 高 斯 。 
默认 情况 下 属性 规范 化 功能 是 打开 的 。 


11.4.7 多 实例 分 类 器 


MI 类 中 的 分 类 器 可 以 处 理 多 实例 数据 。MIDD 、MIEMDD 以 及 MDD 是 6. 10 节 中 所 描 
述 的 多 样 性 密度 算法 的 所 有 变 体 。MIDD 是 标准 版 本 : 它 使 用 noisy- or 模型 令 其 袋 级 别 的 
似 然 值 达到 最 大 。 数 据 可 以 先进 行规 范 化 或 者 标准 化 。MIEMDD 将 多 样 性 密度 算法 和 一 种 
EM 式 的 迭代 方法 结合 起 来 。 与 数据 规范 化 或 标准 化 的 选项 一 样 ， 用 户 还 可 以 指定 一 个 随 
机 种 子 来 初始 化 迭代 过 程 。MIDD 和 MIEMDD 需要 基于 标准 多 实例 假设 ， 即 当 且 仅 当 一 个 
袋 里 至 少 包含 一 个 正 例 时 ， 才 将 该 袋 标记 为 正 。 从 另 一 方面 来 说 ，MDD 设 定 了 “集体 ” 
的 假设 : 袋 中 的 每 一 个 实例 相同 且 独 立地 作用 于 袋 的 类 标 。 

MILR 是 一 种 从 标准 单 实例 Logistic 回归 到 多 例 环境 ( 见 6. 10 节 ) 的 改编 版 本 。 它 的 
操作 模型 中 有 一 种 是 基于 标准 多 实例 假设 ， 还 有 两 种 则 基于 集体 假设 。 与 单 实例 Logistic 
回归 一 样 ， 这 里 也 可 以 用 一 个 岭 参数 来 防止 过 度 拟 合 。 

MISMO 和 MISVM 二 者 都 将 支持 向 量 机 升级 到 了 多 实例 环境 (6.10 节 )。 前 者 将 SMO 
算法 与 一 种 专 为 多 实例 数据 设计 的 核 函 数 结合 起 来 使 用 。 用 户 可 以 在 多 实例 多 项 式 和 径 向 
基 消 数 里 进行 选择 。 男 一 种 情况 是 ， 伐 层 的 数据 则 可 以 由 最 大 值 和 最 小 值 进行 总 结 ， 这 
时 ， 多 实例 核 函 数 退 化 为 相应 的 单 实例 核 函 数 ， 应 用 标准 SMO 选项 。MISVM 使 用 一 种 迭 
代 风 格 的 单 实例 分 类 器 (6. 10 节 ) 实现 了 另 一 种 支持 向 量 机 方法 。 

三 种 多 实例 分 类 器 都 使 用 了 基于 距离 的 方法 。 给 定 一 个 待 分 类 的 目标 袋 ，CtationKNN 
(6.10 节 ) 不 仅 考 虑 了 其 最 近邻 居 (〈( 即 参照 者 ) ， 而 且 还 考虑 了 训练 集中 离 目标 袋 最 远 的 
袋 〈 即 引用 者 ) 。 有 一 个 选项 用 于 设 定 所 使 用 的 数量 ， 还 有 一 个 用 于 设置 豪 斯 道夫 距离 
(Hausdorff distance) 的 级 别 ， 也 就 是 说 ， 用 排名 第 几 的 距离 去 替代 最 大 的 距离 。MINND 
使 用 一 种 带 协 方 差 矩 阵 的 正 态 分 布 来 表示 每 个 袋 ， 使 用 KL 距离 来 找 最 近 的 邻居 。MIOpti- 
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malBall 根据 每 个 实例 到 参考 点 的 距离 对 未 知 袋 进行 分 类 (6.10 节 ) 。 因 为 它 的 简单 ， 所 以 
这 个 分 类 器 是 一 个 良好 的 基 分 类 器 ， 它 同时 使 用 了 如 AdaBoostM1 (11.5 节 ) 的 提升 算法 。 

SimpleMI 和 MIWrapper 使 用 分 别 整合 输入 与 输出 的 方法 (4.9 节 ) ， 将 标准 的 单 实 例 
学 习 器 应 用 到 多 实例 数据 上 。 前 者 可 以 使 用 基于 坐标 的 几何 平均 值 、 算 数 平 均值 、 最 小 值 
或 最 大 值 来 整合 袋 级 的 数据 。 后 者 则 人 允许 用 户 指定 是 否 整合 实例 级 数据 的 评估 概率 ， 这 些 
概率 通过 在 单 实例 模型 中 使 用 平均 数 、 几 何 均值 或 者 最 大 值 估计 得 到 。 用 户 还 可 以 指定 是 
否 给 袋 中 的 实例 赋 权 值 为 1， 或 者 将 权 值 规范 到 与 给 定 袋 相同 的 权重 。MIBoost 是 一 个 来 自 
于 AdaBoost 的 提升 算法 ，AdaBoost 使 用 一 个 单 实 例 学 习 器 (Xu and Frank, 2004) 创建 了 
一 系列 弱 分 类 器 。 使 用 集合 均值 将 每 个 实例 的 概率 评估 结合 起 来 ， 形 成 袋 级 别 的 概率 评估 
器 。 基 于 单 实 例 的 学 习 器 和 执行 的 迭代 次 数 都 是 可 配置 的 选项 。 


11.4.8 杂项 分 类 器 


表 11-5 中 的 “杂项 ”类 别 包 含 3 个 分 类 器 ， 其 中 两 个 是 在 4.7 节 末 尾 提 到 过 的 分 类 
器 。 对 于 离散 的 分 类 问题 来 说 ，HyperPipes 记录 了 在 训练 数据 中 观察 到 的 每 个 属性 值 的 区 
间 及 其 类 别 ， 并 得 出 哪些 区 间 含 有 测试 实例 的 属性 值 ， 从 而 挑 出 含有 最 多 正确 区 间 的 类 
别 。 投 票 特征 区 间 (Voting Feature Interval, VFI) 通过 离散 化 数值 属性 及 对 名 目 属性 使 用 
点 区 间 的 方式 围绕 每 个 类 建立 区 间 ， 并 且 针 对 每 个 属性 记录 每 个 区 间 中 类 的 数量 ， 然 后 用 
投票 的 方式 对 测试 实例 进行 分 类 ( Demiroz 和 Guvenir, 1997) 。 一 个 简单 的 属性 加 权 方 案 
会 为 较 多 的 置信 和 度 区 间 指 定 较 高 的 权 ， KERR AN PROS VEI 比 朴素 贝 叶 斯 速度 
快 ， 但 比 HyperPipes 慢 。 无 论 哪 种 方法 都 无 法 处 理 缺 失 值 。SerializedClassifier 加 载 了 一 个 
已 经 序列 化 为 文件 的 模型 ， 然 后 利用 该 模型 实现 预测 。 提 供 一 个 新 的 训练 数据 也 是 没有 影 
响 的 ， 因 为 它 会 将 其 压缩 成 一 个 静态 模型 。 类 似 地 ， 使 用 SerializedClassifier 进行 交叉 验证 
同样 意义 不 大 。 


11.5 元 学 习 算 法 


表 11-6 中 列 出 的 元 学 习 算 法 将 分 类 器 变 成 功能 更 强大 的 学 习 器 。 其 参数 之 一 用 来 指 
定 基 分 类 器 ; 其 余 参 数 则 用 来 确定 类 似 装 袋 和 提升 方案 中 迭代 的 次 数 ， 以 及 随机 数 生成 器 
的 初始 种 子 。 我 们 在 11. 3 节 中 已 经 见 过 Filtered Classifier， 它 在 经 过 过 滤器 过 滤 的 数据 上 
运行 一 个 分 类 器 ， 所 用 的 过 滤器 是 一 个 参数 。 过 滤器 本 身 的 参数 则 是 专门 建立 在 训练 数据 
基础 上 的 ， 这 种 方法 对 于 将 有 监督 过 滤器 应 用 于 测试 数据 很 合适 。 
表 11-6 Weka 中 的 元 学 习 算法 








名 称 功能 

Meta AdaBoostM1 用 AdaBoostM1 方法 提升 
AdditiveRegression 通过 迭代 拟 合 残 留 部 分 来 提高 回归 方法 的 性 能 
AttributeSelectedClassifier 通过 属性 选择 来 降低 数据 的 维 数 
Bagging 袋 装 一 个 分 类 器 ; 对 回归 问题 也 同样 有 效 
ClassificationViaRegression 用 回归 方法 进行 分 类 
CostSensitiveClassifier 使 一 个 基 分 类 器 对 成 本 敏感 
CVParameterSelection 通过 交叉 验证 进行 参数 选择 


Dagging 类 似 于 Bagging， 但 使 用 的 是 非 连接 的 训练 集 
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( 续 ) 
名 称 功能 
Decorate 通过 使 用 特别 构建 的 人 工 训练 范例 来 生成 分 类 器 集合 
END REDARE 
FilteredClassifier 在 过 滤 后 的 数据 上 运行 一 个 分 类 器 
Grading 以 已 经 被 标记 为 正确 或 不 正确 的 底层 预测 作为 输入 的 元 学 习 器 
GridSearch 在 一 对 分 类 器 选项 上 运行 一 个 格子 搜索 
LogitBoost 运行 累加 Logistic 回归 


MetaCost 

MultiBoostAB 
MultiClassClassifier 
MultiScheme 
OrdinalClassClassifier 
RacedIncrementalLogitBoost 
RandomCommittee 
RandomSubSpace 
RegressionByDiscretization 


RotationForest 


使 一 个 分 类 器 成 为 成 本 敏感 

用 多 重 提升 方法 将 提升 和 装 袋 合并 

将 二 类 分 类 器 应 用 于 多 类 数据 集 

使 用 交叉 验证 从 多 个 候选 对 象 中 选择 一 个 分 类 器 

将 标准 分 类 算法 应 用 于 具有 序数 性 类 值 的 分 类 问题 

通过 使 logit- boosted committee 相互 间 竞 赛 来 进行 以 批 次 为 基础 的 增 量 学 习 
生成 一 个 可 被 随机 化 的 基 分 类 器 的 合集 

生成 一 个 基 分 类 器 集合 ， 每 个 分 类 器 由 不 同 的 随机 选择 的 属性 子 集训 练 得 到 
离散 类 属性 ， 并 使 用 一 个 分 类 器 

创建 一 个 基 分 类 器 集合 ， 每 个 分 类 器 由 一 个 已 经 使 用 主 成 分 分 析 进 行 了 


转换 的 随机 子 空间 训练 得 到 


Stacking 用 堆栈 的 方法 将 多 个 分 类 器 组 合 起 来 

StackingC 堆栈 的 高 效 版 

ThresholdSelector 优化 一 个 下 度量 用 于 概率 分 类 器 

Vote 使 用 概率 估计 或 数值 预测 平均 值 来 合并 分 类 器 
11.5.1 装 袋 和 随机 化 


Bagging 将 一 个 分 类 器 装 袋 以 减 小 方差 (8.2 节 ) 。 这 种 实现 方法 对 分 类 和 回归 都 很 有 
效 ， 当 然 这 取决 于 基 学 习 器 。 对 于 分 类 来 说 ， 预 测 是 通过 平均 概率 估计 而 不 是 投票 做 出 
的 。 其 中 一 个 参数 是 袋 的 尺寸 ， 它 是 用 训练 集 的 百分比 表示 的 。 另 一 个 参数 是 是 否 计算 溢 
RIŽ (out-of-bagerror) ， 也 就 是 全 体 成 员 的 平均 误差 (Breiman 2001), 

Dagging 与 Bagging 类 似 ， 但 鉴于 集合 中 每 个 成 员 输 入 的 考虑 ， 它 使 用 的 是 训练 数据 非 
连接 分 层 的 折 而 不 是 辅助 程序 样 例 。 有 些 分 类 器 因为 实例 个 数 太 多 ， 导 致 时 间 复 杂 度 太 
大 。 对 这 些 分 类 器 进行 整合 时 ， 上 面 所 述 优势 就 可 以 发 挥 作用 。 折 的 个 数 是 一 个 参数 ， 不 
仅 可 以 用 于 控制 每 个 基 分 类 器 的 训练 集 大 小 ， 还 可 以 设 定 集合 中 分 类 器 的 个 数 。 

RandomCommittee 更 加 简单 ， 它 生成 一 个 基 分 类 器 的 合集 ， 然 后 平均 它们 的 预测 。 每 
个 分 类 器 都 是 基于 同样 的 数据 但 用 不 同 的 随机 种 子 (7.5 节 ) 。 这 种 方法 只 有 在 基 分 类 器 
被 随机 化 以 后 才 有 意义 ， 否 则 所 有 的 分 类 器 都 是 一 样 的 。 

RandomSubSpace 生成 一 个 分 类 器 集合 ， 每 个 分 类 器 都 是 由 从 输入 属性 (8.3 节 ) 中 进行 
随机 选择 得 到 的 属性 子 集 上 训练 得 到 的 。 除 了 和 迭代 次 数 和 使 用 的 随机 种 子 以 外 ， 它 还 提供 了 
一 个 参数 来 控制 属性 子 集 的 大 小 。RotationForest 实现 了 8.3 节 中 所 描述 的 旋转 森林 组 合 学 习 
器 。 尽 管 旋 转 森 林 方 面 的 经 典 论文 (Rodriguez 等 ，2006) 使 用 随机 子 空间 和 主 成 分 来 生成 一 
个 决策 树 组 合 ， 但 Weka 的 实现 允许 基 分 类 器 可 以 是 任何 分 类 器 或 者 回归 模型 。 主 成 分 变换 过 
程 由 同名 的 Weka 过 滤器 来 完成 。RotationForest 还 可 以 进行 配置 以 使 用 其 他 的 项 目 ， 如 随机 项 
目 或 者 最 小 二 乘 。 其 他 参数 则 用 于 控制 子 空间 的 大 小 以 及 输入 到 项 目 过 滤器 中 的 实例 数目 。 
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11.5.2 A 


AdaBoostM1 实现 了 8.4 节 中 描述 的 算法 ( 见 图 8-2)。 它 可 以 通过 指定 一 个 用 于 加 权 
前 枝 的 贱 值 来 加 速 。 如 果 基 分 类 咒 无 法 处 理 经 过 加 权 的 实例 ，AdaBoostM1 就 会 进行 重 抽样 
(用 户 当然 也 可 强迫 它 进行 重 抽样 )。MultiBoostAB 将 提升 与 一 个 装 袋 的 变 体 合并 在 一 起 ， 
以 防止 过 度 拟 合 (Webb, 2000), 

与 提升 只 适用 于 名 目 型 类 不 同 ，AdditiveRegression 可 强化 一 个 回归 学 习 器 的 性 能 
(8.5 节 )。 它 有 两 个 参数 : 一 个 是 用 来 管理 学 习 比 率 的 收缩 (shrinkage) ， 另 一 个 是 产生 
模型 数量 的 最 大 值 。 如 果 后 一 个 参数 是 无 穷 大 ， 则 运行 会 持续 下 去 直至 误差 不 再 降低 。 

Decorate 通过 使 用 特别 构建 的 人 工 训练 范例 ， 生 成 一 个 多 样 分 类 器 组 合 。 该 技术 据说 
可 通过 基 分 类 器 ， 通 过 装 袋 和 随机 森林 元 学 习 器 持续 地 改进 (Melville 和 Mooney, 2005) ©, 
对 于 小 型 训练 集 来 说 ， 它 的 性 能 比 提升 好 ， 且 在 大 型 数据 集 上 也 不 算 差 。 它 的 参数 之 一 是 
所 用 人 工 范例 的 数量 ， 用 训练 数据 的 比例 表示 ， 另 一 个 参数 是 组 合 中 欲 加 入 的 分 类 器 的 数 
量 ， 因 为 迭代 次 数 的 上 限 也 可 以 人 为 设 定 ， 所 以 运行 过 程 也 许 会 过 早 地 停 下 来 。 较 大 的 合 
集 通常 会 生成 更 精确 的 模型 ， 但 也 会 增加 训练 时 间 和 模型 的 复杂 度 。 

LogitBoost 进行 相 加 的 Logistic 回归 (8.5 节 )。 像 AdaBoostM1 一 样 ， 它 也 可 以 通过 一 
个 用 于 加 权 剪 枝 的 阔 值 来 加 速 。 合 适 的 迭代 次 数 可 通过 内 部 交叉 验证 得 出 ; 调节 收缩 参数 
可 防止 过 度 拟 合 ; 用 户 还 可 选择 重 抽样 而 不 是 重 加 权 。RacedIncrementalLogitBoost 通过 今 
LogitBoostedCommittee 之 间 互 相 竞 赛 来 学 习 ， 并 通过 将 数据 分 批 次 处 理 (8. 1 节 ) 来 进行 
增 量 操作 ， 因 此 对 处 理 大 型 数据 集 很 有 用 (Frank 等 ，2002) 。 每 个 委员 会 成 员 都 由 不 同 的 
批 次 得 出 。 批 次 的 规模 先 由 一 个 给 定 的 最 小 值 开 始 ， 然 后 反复 成 倍 递增 直至 达到 一 个 预 设 
的 最 大 值 。 如 果 基 分 类 器 无 法 处 理 经 过 加 权 的 实例 ， 就 必须 重新 抽样 (用 户 当然 也 可 强迫 
进行 重 抽样 ) 。 对 数 似 然 剪 枝 可 用 于 每 个 委员 会 中 : 这 样 ， 如 果 新 的 委员 会 成 员 降 低 验 证 
数据 的 对 数 似 然 ， 它 们 就 会 被 删除 。 用 户 可 决定 将 多 少 个 实例 提取 出 来 专门 用 于 验证 。 当 
训练 结束 时 ， 用 于 验证 的 数据 还 用 于 决定 哪个 委员 会 保留 下 来 。 


11. 5.3 组 合 分 类 器 


Vote 提供 了 一 个 基准 方法 用 于 合并 分 类 器 ， 合 并 是 通过 将 分 类 器 的 概率 估计 (分 类 ) 
或 数值 预测 (H) 平均 的 方式 完成 的 。MultiScheme 利用 百分比 精确 度 (分 类 ) 或 均 方 
差 (回归 ) 的 交叉 验证 ， 从 一 组 候选 分 类 器 中 选择 最 佳 的 一 个 。 折 的 数量 是 一 个 参数 。 在 
训练 数据 上 的 性 能 也 可 作为 替代 使 用 。 

Stacking 利用 堆栈 (8.7 节 ) 将 分 类 器 合并 ， 这 对 于 分 类 及 回归 问题 都 适用 。 用 户 可 
指明 基 分 类 器 ， 元 学 习 器 以 及 交叉 验证 的 折 的 数量 。StackingC 实现 一 个 效率 更 高 的 变 体 版 
本 ， 它 要 求 其 元 学 习 器 必须 是 一 个 数值 型 的 预测 方案 (Seewald，2002 ) 。 在 Grading rf, 
元 学 习 器 的 输入 必须 是 已 经 标记 (Hn, “已 评分 的 ") 为 正确 或 不 正确 的 底层 预测 。 对 应 
于 每 个 基 分 类 器 都 会 得 出 一 个 元 学 习 器 。 当 基 分 类 器 出 错时 ， 元 学 习 器 用 于 预测 。 就 像 堆 





日 随机 森林 模式 在 8.3.2 节 和 11.4.2 节 中 提出 。 它 确实 是 一 个 元 学 习 器 ， 但 因为 它 天 生 就 是 一 个 特殊 的 分 类 器 
(RandomTree) ， 所 以 Weka 将 其 放 人 决策 树 方法 中 。 
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栈 可 以 被 看 做 是 投票 的 泛 化 一 样 ， 通 过 交叉 验证 评分 泛 化 了 选择 过 程 (Seewald 和 
Funkranz，2001 ) 。 


11.5.4 成 本 敏感 学 习 


有 两 种 用 于 成 本 敏感 学 习 的 元 学 习 器 (5.7 节 ))。 成 本 和 矩阵 可 作为 一 个 参数 提供 或 由 
文件 载 人 ， 该 文件 来 自 于 由 onDemandDirectory 属性 设 定 的 文件 夹 中 ,并 且 是 用 关系 名 字 加 
上 扩展 .cost 命名 的 。 CostSensitiveClassifier 要 么 根据 指定 给 每 个 类 的 总 成 本 对 训练 实例 进 
行 重 加 权 (成 本 敏感 学 习 ，5.7 节 ) ， 或 者 用 最 小 而 不 是 最 可 能 的 预期 错误 对 成 本 来 预测 
类 进行 分 类 (成 本 敏感 分 类 ，5.7 节 ) 。MetaCost 从 基 学 习 器 中 产生 一 个 单 成 本 敏感 分 类 
器 (8.2 节 )。 该 实现 方法 在 对 训练 数据 重新 进行 分 类 时 使 用 全 部 的 装 袋 循环 (Domingos, 
1999 ， 在 仅仅 使 用 那些 含有 每 个 训练 实例 的 循环 来 做 重新 分 类 时 观察 到 了 些许 改进 ) H 
户 可 以 指定 每 个 袋 的 尺寸 及 装 袋 的 迭代 次 数 。 


11. 5.5 优化 性 能 


四 种 元 学 习 器 使 用 包装 技术 来 优化 基 分 类 器 的 性 能 。AttributeSelectedClassifier 选择 属 
性 ， 降 低 数据 的 维 数 ， 然 后 将 其 传送 给 分 类 器 (7. 1 节 ) 。 用 户 可 利用 11. 2 节 中 描述 过 的 
Select attributes 面板 来 挑选 属性 评估 器 和 搜索 方法 。CVParameterSelection 通过 使 用 交叉 验 
证 选择 参数 的 方式 来 优化 性 能 。 用 户 可 为 每 个 参数 提供 一 个 含有 下 限 和 上 限 以 及 想 要 的 增 
量 的 一 个 字符 。 例 如 ， 要 想 使 参数 P 从 1 ~ 10 以 每 次 1 的 方式 递增 ， 使 用 

P 1 10 10 
也 可 以 指定 交叉 验证 的 折 的 数量 。 

GridSearch 与 CVParameterSelection 类 似 ， 但 仅 限 于 通过 搜索 一 个 2 维 网 格 来 优化 两 个 
参数 。 实 际 上 它 提 供 了 优化 参数 的 功能 ， 优 化 的 对 象 可 以 是 一 个 分 类 器 、 一 个 预 处 理 过 滤 
器 ， 也 可 以 是 二 者 中 的 一 个 。 用 户 可 以 选择 优化 正确 率 、 方 均 根 偏差 、 相 对 方 均 根 偏差 、 平 
均 绝 对 偏差 、 相 对 绝对 偏差 、 相 关系 数 、 相 关系 数 的 Kappa 值 或 者 相对 方 均 根 偏差 、 相 对 绝 
对 偏差 的 线性 组 合 (而 CVParameter 只 能 分 别 优化 分 类 和 回归 的 正确 率 或 者 方 均 根 偏差 ) 。 

像 CVParameterSelection 一 样 GridSearch 人 允许 用 户 指 定 每 个 参数 取 值 的 下 限 和 上 限 ， 
以 及 理想 的 增 量 值 。 同 时 GridSearch 还 允许 用 户 使 用 与 MathExpressionFilter 相同 的 运算 符 
和 函数 构成 数学 表达 式 来 设置 每 个 目标 参数 的 值 、 包 含 了 任意 常数 的 参数 、 某 个 边界 的 
值 、 步 又 的 个 数 或 目前 迭代 次 数 。GridSearch 通过 对 训练 数据 进行 2 折 交 叉 验 证 进行 网 格 
的 快速 评估 。 接 着 ,根据 选 定 的 评估 矩阵， 使 用 考虑 了 网 格 中 邻接 参数 对 的 息 山 搜索 算法 
就 可 以 逐渐 逼近 最 佳 网 格 点 。 在 这 个 阶段 使 用 10 折 交 又 验 证 。 若 能 验证 某 个 邻接 点 更 优 ， 
则 这 个 点 变 为 新 的 中 心 ， 然 后 再 执行 一 次 10 折 交 叉 验 证 。 当 没有 更 好 的 点 或 者 当前 最 佳 
点 到 达 边 界 时 ， 过 程 结束 。 在 后 续 的 情况 中 , 用户 可 以 选择 允许 GridSearch 自动 拓展 网 格 
继续 搜索 。 这 时 网 格 可 以 拓展 的 最 大 次 数 也 是 一 个 用 户 自 定义 的 选项 。 

第 四 个 元 学 习 器 ThresholdSelector 通过 为 分 类 器 的 输出 选 定 一 个 概率 靖 值 来 优化 下 度 
ft (5.7 节 )。 其 性 能 可 通过 对 训练 数据 和 旁 置 集 来 度量 ,或 通过 交叉 验证 来 度量 。 基 学 
习 器 返回 的 概率 可 按 比 例 转换 为 [0，1] 的 区 间 内 ， 如 果 方 案 的 概率 被 限定 在 一 个 狭窄 的 
子 区 间 内 ， 那 么 这 么 做 很 有 帮助 。 元 学 习 器 可 通过 指定 类 值 的 方式 应 用 于 多 类 问题 ， 进 行 
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优化 时 所 指定 的 类 值 有 
1) 第 一 个 类 值 。 
2) 第 二 个 类 值 。 
3) 最 不 频繁 的 类 值 。 
4) 最 频繁 的 类 值 。 
5) AFA yes, pos (itive) 或 1 的 第 一 个 类 属性 。 


11.5.6 针对 不 同 任务 重新 调整 分 类 器 


六 种 元 学 习 器 可 以 把 为 完成 一 种 任务 而 设计 的 学 习 器 进行 改装 ， 从 而 可 完成 其 他 任 
务 。ClassificationViaRegression 利用 回归 方法 ， 通 过 使 类 属性 二 值 化 ， 为 每 个 值 建立 一 个 回 
归 模 型 的 方式 进行 分 类 。RegressionByDiscretization 是 一 种 回归 方案 ， 它 用 等 宽 离散 化 将 类 
属性 离散 化 成 给 定数 量 的 箱 ， 然 后 再 应 用 一 个 分 类 器 。 预 测 结果 就 是 每 个 离散 区 间 的 平均 
类 值 的 加 权 平 均值 ， 其 中 所 用 的 权 值 基于 每 个 区 间 的 预测 概率 。ClassificationViaClustering 
使 用 一 个 聚 类 算法 进行 分 类 ， 将 每 个 聚 类 中 的 主要 类 作为 预测 结果 。OrdinalClassClassifier 
将 标准 的 分 类 算法 应 用 于 有 序 类 的 问题 (Frank 和 Hal, 2001), 

MultiClassClassifier 将 二 类 分 类 器 用 于 多 类 问题 ， 使 用 以 下 方法 中 的 任意 一 种 : 

1) 1 对 多 。 

2) 使 用 投票 进行 预测 的 成 对 分 类 。 

3) 穷 举 误差 校正 编码 (7.6 节 )。 

4) 随机 选取 的 误差 校正 编码 。 

众所周知 ， 随 机 编码 向 量具 有 好 的 误差 校正 性 能 ， 它 的 一 个 参数 明确 了 编码 向 量 的 长 
度 〈 以 位 为 单位 ) 。 对 于 成 对 分 类 器 ， 可 以 开启 概率 的 两 两 配对 评估 。END EA TREL 
分 法 (7.6 节 ) 集合 ， 利 用 两 类 分 类 器 来 处 理 多 类 问题 。 有 多 种 不 同 的 艇 套 二 分 法 都 可 以 
使 用 ， 其 中 有 两 种 平衡 了 数据 或 数据 中 的 类 标 。 


11.6 BEBE 


表 11-7 列 出 了 Weka 的 聚 类 算法 。Cobweb 、EM 、SimpleKMeans 以 及 HierarchicalClus- 
ter 已 经 在 6. 8 节 中 进行 了 描述 。 对 于 EM 实现 ， 用 户 可 指定 需 产 生 聚 类 的 个 数 ， 或 所 用 的 
算法 可 通过 交叉 验证 来 决定 ， 在 这 种 情况 下 ， 折 的 数量 固定 为 10 (除非 训练 实例 小 于 10 
个 )。 用 户 可 指定 迭代 次 数 的 最 大 值 ， 并 为 正常 的 密度 计算 设 定 可 允许 的 最 小 标准 差 。 
SimpleKMeans 使 用 上 均值 来 聚 类 数据 ， 聚 类 的 数量 通过 一 个 参数 指定 。 用 户 可 以 在 欧 几 里 
得 距离 与 曼哈顿 距离 度量 中 做 出 选择 。 后 者 实际 上 使 用 的 是 中 值 而 不 是 均值 ， 为 了 最 
小 化 聚 类 中 的 距离 函数 ， 其 中 心 是 基于 中 值 而 不 是 均值 。 





表 11-7 BKB 
名 称 功能 
CLOPE 事务 数据 上 的 快速 聚 类 
Cobweb Cobweb 和 Classit 聚 类 算法 的 实现 
DBScan 基于 最 近邻 的 聚 类 ， 自 动 选 择 聚 类 的 个 数 


EM 使 用 期 望 最 大 化 进行 聚 类 
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(5X) 
名 称 功能 
FarthestFirst 使 用 由 远 端 优先 遍历 算法 进行 聚 类 
FilteredClusterer 在 过 滤 后 的 数据 上 进行 聚 类 
HierarchicalClusterer 合成 聚 类 
MakeDenesityBasedCluster 将 一 个 聚 类 器 包装 ， 使 其 返回 分 布 和 密度 
OPTICS 将 DBScan 扩展 到 分 层 聚 类 
sIB 使 用 序列 信息 瓶颈 算法 进行 聚 类 
SimpleKMeans 使 用 上 均值 方法 进行 聚 类 
XMeans 均值 的 扩展 


图 11-29 给 出 了 在 天 气 数据 上 运行 SimpleKMeans 的 输出 结果 ， 默 认 选 项 为 ， 两 个 聚 
类 、 欧 几 里 得 距离 。 聚 类 结果 用 表格 给 出 来 ， 行 表示 属性 名 ， 列 为 聚 类 中 心 。 开 始 时 ， 给 
出 的 一 个 额外 的 聚 类 反映 了 这 个 数据 集 。 列 顶部 括号 中 的 数 就 是 每 个 聚 类 所 包含 的 实例 个 
数 。 表 格 中 的 每 一 项 根据 聚 类 对 应 列 的 属性 值得 到 ， 要 么 是 平均 值 (数值 型 属性 ) EA 
是 众 数 (名 目 属性 ) 。 用 户 可 以 选择 显示 标准 方差 (数值 型 属性 ) ， 或 频率 计数 (名 目 属 
性 ) 。 底 部 显示 的 是 所 学 习 聚 类 模型 的 应 用 结果 。 在 这 种 情况 下 ， 每 个 训练 实例 都 将 分 配 
给 一 个 聚 类 ， 聚 类 的 结果 与 列 顶 部 括号 中 的 数字 一 样 。 另 一 种 方法 是 使 用 一 个 单独 的 测试 
集 或 者 训练 集 的 一 个 百分比 分 裂 ， 这 时 数据 将 不 一 样 。 











=== Run information === 








Scheme: weka.clusterers.SimpleKMeans -N 2 -A "weka.core. 
EuclideanDistance - R first-last" -I 500 -S 10 

Relation: weather 

Instances: 14 

Attributes: 5 

outlook 

temperature 

humidity 

windy 

play 

evaluate on training data 













Test mode: 









-- Model and evaluation on training set --- 


Number of iterations: 3 
Within cluster sum of squared errors: 16.237456311387238 
Missing values globally replaced with mean/mode 


Cluster centroids: 





Clustered Instances 


0 9 ( 64$) 
1 5 ( 36%) 





Cluster# 

Attribute Full Data 0 工 

(14) (9) (5) 
outlook sunny sunny overcast 
temperature 73.5714 75.8889 69.4 
humidity 81.6429 84.1111 77.2 
windy FALSE FALSE TRUE 
play yes yes yes 


11-29. 天气 数据 的 SimpleKMeans 输出 结果 










342 第 三 部 分 Weka 数据 挖 握 平 台 





图 11-30 展示 了 在 相同 数据 上 应 用 EM 的 结果 ， 聚 类 个 数 设置 为 两 个 。 这 里 没有 每 个 
聚 类 中 实例 个 数 的 概念 ， 列 顶部 括号 里 给 出 的 是 其 先 验 概率 。 表 格 中 的 项 表示 相应 参数 ， 
若 为 数值 型 则 为 相应 正 态 分 布 的 参数 ， 若 为 名 目 属性 则 为 频 度 计数 。 分 数值 反应 了 EM 算 
法 所 产生 聚 类 的 “ 软 ” 特 征 ， 即 每 个 实例 可 以 同时 分 到 多 个 聚 类 中 。 底 部 给 出 了 模型 的 对 
数 似 然 值 (再 次 考虑 训练 数据 ) ， 此 外 还 有 将 学 习 的 模型 作为 分 类 器 应 用 到 数据 上 时 分 配 
给 每 个 聚 类 的 实例 个 数 。 


Run information --- 


Scheme: weka.clusterers.EM -I 100 -N 2 -M 1.0E-6 -S 100 
Relation: weather 
Instances: 14 
Attributes: 5 
outlook 
temperature 
humidity 
windy 
play 
Test mode: evaluate on training data 


--- Model and evaluation on training set --- 


Number of clusters: 2 


Cluster 
Attribute 


outlook 

sunny 

overcast 

rainy 

[total] 
temperature 

mean 

std. dev. 
humidity 

mean 

std. dev. 
windy 

TRUE 

FALSE 

[total] 
play 

yes 

no 

[total] 
Clustered Instances 


0 5 ( 36%) 
1 9 ( 64%) 


Log likelihood: -9.13099 





图 11-30 天气 数 据 的 EM 输出 结果 


XMeans 实现 了 Moore 和 Pelleg (2000) 的 下 均值 的 扩展 版 本 ， 它 使 用 了 一 种 贝 叶 斯 信 
息 准 则 来 选择 聚 类 个 数 (6.8 节 ) ， 使 用 kD 树 来 加 速 (4.7 节 )。 用 户 可 以 指定 使 用 的 距 
离 函 数 、 聚 类 的 最 小 和 最 大 值 以 及 迭代 的 最 大 执行 次 数 。 

Cobweb 实现 了 用 于 名 目 属 性 的 Cobweb 算法 和 用 于 数值 属性 的 Classit 算法 。 对 于 合并 
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和 分 裂 运算 符 的 排序 及 优先 权 来 说 ， 原 始 的 Cobweb 5j Classit 报告 中 不 尽 相 同 (这 里 多 少 
有 些 歧 义 ) 。 该 实现 总 是 先 比较 四 种 不 同 的 处 理 新 实例 的 方式 ， 然 后 选择 其 中 最 好 的 : 将 
其 与 最 佳 主 结 点 (hos) 相 加 ， 使 其 成 为 一 个 新 的 叶子 结 ， 将 两 个 最 佳 主 结 点 合并 后 再 将 
其 加 入 合并 后 的 结 点 ， 分 裂 最 佳 主 结 点 然后 将 其 加 入 分 裂 后 的 结 点 之 一 。Acuity 和 cutoff 
是 参数 。 

HierarchicalClusterer 实现 了 分 层 聚 类 的 凝结 生成 (E PIE) (6. 8 节 )。 选 项 中 有 多 
种 不 同 的 连接 类 型 可 供 选择 ， 不 同 的 连接 类 型 就 是 不 同 的 聚 类 间距 离 度量 方式 。 

FilteredClusterer 允许 数据 在 到 达 聚 类 器 之 前 先 通过 一 个 过 滤器 。 过 滤器 和 分 类 器 都 是 
用 户 可 以 配置 的 参数 。 

FarthestFirst 实现 Hochbaum 和 Shmoys (1985) 远 端 优先 遍历 算法 ，Sanjoy Dasgupta 
(2002) 曾 做 过 引述 ; 它 是 一 个 快速 、 简 单 、 以 上 均值 为 模型 的 近似 聚 类 器 。MakeDensity- 
BasedCluster 一 个 元 聚 类 器 ， 它 包装 一 个 聚 类 算法 ， 使 其 返回 一 个 概率 分 布 和 密度 。 它 为 
每 个 聚 类 拟 合 一 个 离散 分 布 ， 或 一 个 对 称 的 正 态 分 布 (其 最 小 标准 差 是 一 个 参数 ) 。 

CLOPE 实现 了 一 个 用 于 购物 篮 类 型 数据 (Yang 5$, 2002) 的 快速 聚 类 技术 。 它 使 
用 一 种 基于 直方 图 的 质量 聚 类 启发 式 方法 ， 也 就 是 不 同 项 目的 个 数 以 及 每 种 项 目的 计数 
都 从 聚 类 的 项 集中 计算 得 到 。 若 一 个 聚 类 的 项 集中 共享 的 项 目 个 数 比 不 同 项 目的 个 数 
多 ， 则 这 个 聚 类 是 一 个 好 的 聚 类 。 整 个 聚 类 集合 的 优良 程度 取决 于 每 个 聚 类 优良 程度 的 
总 和 。 聚 类 内 部 相似 性 程度 (如 聚 类 中 项 集 的 共同 项 目 偏 向 ) 可 以 由 “排斥 ”参数 来 
控制 。 

DBScan 使 用 欧 几 里 得 距离 度量 来 决定 哪些 实例 共同 属于 一 个 聚 类 (Ester 等 ，1996 ) 。 
不 同 于 下 均值 的 是 ， 它 可 以 自动 决定 聚 类 的 个 数 ， 并 找到 任意 形状 的 聚 类 以 及 合并 得 到 异 
常 点 的 概念 。 聚 类 中 至 少 要 包含 给 定 最 小 值 的 点 ， 而 且 每 两 个 点 对 的 距离 要 么 是 在 用 户 给 
定 的 距离 (e) 之 内 ， 要 么 由 聚 类 中 点 的 序列 连接 起 来 ， 点 序列 中 邻接 点 之 间 的 距离 也 在 
2 之 内 。 小 的 e 值 会 导致 较 密 集 的 聚 类 ， 因 为 每 个 实例 必须 与 同一 个 聚 类 中 其 他 实例 更 接 
近 才 能 同属 于 该 聚 类 。 根 据 最 小 es 值 以 及 聚 类 的 最 小 尺寸 来 看 ， 确 实 存在 实例 不 属于 任何 
聚 类 的 情况 。 这 些 实例 被 认为 是 异常 点 。 

图 11-31 给 出 了 在 芒 尾 花 数据 上 (不 带 类 标 ) 由 DBScan 形成 的 聚 类 ， 使 用 的 e 为 
0.2， 最 小 聚 类 斥 寸 为 S。 这 里 找到 两 个 聚 类 ， 一 个 是 Iris setosas ， 还 有 一 个 就 是 Iris vigini- 
cas 和 versicolors。 有 三 个 实例 被 认为 是 异常 点 (图 中 标记 为 M) 。 一 个 是 setosa (左下 
Ji), ， 两 个 virginicas (右上 方 )。 在 这 个 用 于 可 视 化 结果 ( 花 苯 宽度 与 花瓣 宽度 ) 的 2 HE 
空间 中 ， 存 在 不 出 现在 任何 聚 类 之 中 的 情况 。 若 聚 类 的 最 小 尺寸 设置 为 2， 那么 这 两 个 异 
常 的 virginicas 就 会 形成 第 三 个 聚 类 ， 因 为 它们 之 间 的 距离 在 & =0. 2 之 内 。 

OPTICS 是 将 DBScan 扩展 到 分 层 聚 类 后 的 版 本 ( Ankerst 等 ，1999 ) 。 它 给 实例 强加 
了 一 个 排序 ， 这 样 就 与 2 维 可 视 化 一 起 很 好 地 展示 了 育 类 的 分 层 结构 。 排 序 过 程 根据 距 
BER, 将 与 其 他 一 个 实例 最 接近 的 实例 放置 在 列表 中 接近 的 位 置 。 此 外 ， 它 还 用 “可 
达 性 距离 ”来 注释 邻接 实例 对 ,“ 可 达 性 距离 ”就 是 决定 了 实例 对 可 以 属于 同一 个 聚 类 
的 最 小 = 值 。 当 排序 用 可 达 性 距离 标注 出 来 后 ， 聚 类 结果 就 非常 明显 了 。 因 为 聚 类 中 的 
实例 与 最 近邻 居 之 间 的 可 达 性 距离 非常 小 ， 可 视 化 之 后 的 育 类 表现 为 谷 状 ， 谷 越 深 则 聚 
类 越 密集 。 


480 
i 
483 


344 第 三 部 分 Weka 数据 挖 握 平 台 














sepalwidth (Num) 


set FE Clear } ( Open }{ Save ) 


Í Plot: iris_clustered 


| 2.5 

















| 9.1 
| Class colour 


cluster! cluster? 


11-31 在意 尾 花 数 据 上 由 DBScan 形成 的 聚 类 


图 11-32 展示 了 营 尾 花 数 据 的 一 个 OPTICS 的 可 视 化 结果 ， 使 用 的 值 以 及 聚 类 最 小 
尺寸 与 DBScan 相同 。DBScan 使 用 这 些 参数 找到 两 个 聚 类 ， 分 别 对 应 于 图 中 三 个 高 峰之 间 
两 个 主要 的 谷 。 通 过 设置 可 达 性 值 可 以 得 到 许多 聚 类 ， 也 就 是 说 在 图 中 画 一 条 给 定 可 达 性 
值 的 横 线 。 被 该 横 线 截断 的 峰 ， 其 任意 一 侧 的 谷 都 是 一 个 聚 类 。 
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图 11-32 高 尾 花 数据 的 OPTICS 可 视 化 结果 


SIB 是 一 种 为 文件 聚 类 设计 的 算法 ， 使 用 的 是 一 种 信息 理论 距离 度量 (Slonim 等 ， 
2002) 5 待 发 现 的 聚 类 数目 以 及 执行 的 最 大 迭代 次 数 都 可 以 由 用 户 制定 。 
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11.7. 关联 规则 学 习 器 


Weka 有 6 种 关联 规则 学 习 器 ， 如 表 11-8 中 所 示 。Apriori 实现 Apriori 算法 (4.5 节 )。 
它 由 数据 项 的 最 小 支持 度 100% 开始 ， 逐 步 递 减 5% ， 直 到 至 少 有 所 要 求 的 最 小 置信 和 度 为 
0.9 的 10 个 规则 ， 或 者 支持 度 达到 了 10% 的 较 低 极限 ， 二 者 以 先 出 现 为 计 〈 这 些 默 认 值 
是 可 修改 的 ) 。 共 有 4 种 不 同 的 因素 用 于 决定 排序 规则 : Confidence ( 置信 和 度 )， 即 同时 被 
前 件 和 后 件 所 覆盖 的 范例 比例 (在 4.5 节 中 称 为 精确 度 ) ; Lift (提升 度 )， 即 等 于 置信 度 
除 以 支持 度 (在 4.5 节 中 称 为 覆盖 量 ) ; Leverage (优势 ) ， 在 前 件 和 后 件 是 统计 独立 的 条 
件 下 ， 被 前 件 和 后 件 所 同时 覆盖 的 超出 期 望 值 的 那 部 分 范例 的 比例 ; Conviction (可 信 
度 ) ， 一 种 由 Brin 等 (1997) 确立 的 度量 法 。 用 户 可 以 指定 一 个 显著 性 级 别 ， 规 则 将 会 在 
这 个 级 别 上 进行 显著 性 测试 。Apriori 有 一 个 选项 用 于 限定 找到 的 规则 只 包含 规则 的 结果 中 
单 属 性 的 值 。 这 些 规则 叫做 “类 ”关联 规则 ， 也 就 是 分 类 规则 。 

表 11-8 关联 规则 学 习 器 





名 称 功能 
Apriori 用 Apriori 算法 寻找 关联 规则 
FilteredAssociator 在 过 滤 数 据 上 运行 关联 器 
FPGrowth 使 用 频繁 模式 树 控 握 关联 规则 
GeneralizedSequentialPatterns 在 序列 数据 中 寻找 大 型 项 集 
PredictiveApriori 找 出 经 过 预测 精度 排序 的 关联 规则 
Terius 确认 指引 下 的 关联 或 分 类 规则 的 发 现 


为 了 利用 Apriori 处 理 购物 篮 数 据 ， 我 们 感 兴趣 的 是 〈 从 顾客 购物 篮 呈 现 的 商品 项 目 中 ) 
发 现 哪些 项 目 被 一 起 购买 ， 这 就 有 必要 用 特别 的 方式 将 输入 的 ARFF 数据 进行 编码 。 特 别 
是 ， 由 于 我 们 并 不 关心 那些 没有 出 现在 购物 篮 中 项 目 共同 出 现 的 情况 ， 所 以 与 项 目 相关 的 属 
性 应 该 声明 为 ARFF 中 单 值 名 目 属性 。 缺 失 值 可 以 用 于 表示 项 目 没有 出 现在 购物 篮 中 。 

FPGrowth 实现 了 6. 3 节 中 所 描述 的 频繁 模式 树 挖 气 算 法 。Apriori 为 购物 篮 数 据 而 设 
计 ， 因 而 这 里 并 没有 实现 对 这 种 数据 的 特殊 编码 方式 。 所 有 的 属性 最 好 都 是 二 值 的 名 目 
型 ， 用户 可 以 指定 两 个 值 中 的 哪 一 个 将 被 认为 是 正 的 ， 也 就 是 说 哪个 值 表示 其 存在 于 这 个 
购物 篮 中 〈 默 认 使 用 第 二 个 值 ) FPGrowth 既 可 以 操作 于 标准 实例 也 可 以 操作 于 稀 玖 实 
例 。 其 大 多 数 选项 与 Apriori 相同 。 它 用 相同 的 方式 寻找 规则 被 请 求 的 数目 ， 也 就 是 循环 
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增加 最 小 值 尺 度 。 或 者 用 户 还 可 以 使 用 FPGrowth 找 出 所 有 满足 最 小 值 尺 度 以 及 排序 度量 
(支持 度 、 提 升 度 、 平 衡 度 或 者 可 信和 度 ) 的 最 小 值 集合 的 规则 。 

FilteredAssociator 允许 数据 在 到 达 关 联 器 之 前 先 通 过 一 个 过 滤器 。 过 滤器 和 基 关 联 器 
都 是 用 户 可 以 设置 的 选项 。 

GeneralizeSequentialPatterns 实现 了 Srikant 和 Agrawal (1996) GSP 算法 的 一 个 版 本 ， 寻 
找 在 时 间 序 列 上 出 现 的 最 大 项 集 。 输 入 数据 中 必须 包含 一 个 特殊 的 名 目 属性 ， 它 可 以 将 事务 
(实例 ) 进行 时 间 上 的 分 组 。 将 所 有 具有 相同 名 目 序 列 标识 的 实例 划 为 一 组 ， 定 义 一 个 可 以 
抽取 序列 模式 的 时 间 窗 口 ， 例 如 ， 标 识 必须 根据 事务 出 现 的 日 期 将 事务 进行 分 组 。 每 个 组 里 
的 实例 将 根据 其 出 现 序列 依次 处 理 ， 也 就 是 它们 在 数据 中 的 出 现 顺 序 。 对 于 包含 了 顺序 出 现 
在 一 个 组 的 事务 中 的 项 目 组 合 的 大 型 项 集 ， 将 找 出 所 有 满足 用 户 提 供 的 最 小 支持 度 阔 值 的 项 
集 。 输 出 结果 可 以 经 过 过 滤 ， 只 展示 那些 用 户 感 兴趣 的 特殊 项 目的 序列 模式 。 
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PredictiveApriori 将 置信 和 度 和 支持 度 合并 为 预测 精度 而 成 为 单一 度 测 量 法 〈Sheffer， 
2001) ， 然 后 依次 寻找 半 个 最 好 关联 规则 。 对 算法 本 身 来 说 ， 由 于 预测 精度 取决 于 支持 度 闭 
fH, ARIAT HE KAA. Tertius 根据 确认 度 来 寻找 规则 (Flach 和 Lachiche, 1999), 
它 像 Apriori 一 样 寻 找 其 后 件 中 含有 多 重 条 件 的 规则 ， 但 不 同 的 是 ， 这 些 条 件 相互 间 是 或 而 不 
是 与 的 关系 。 它 可 设 定 为 寻找 只 预测 一 个 单独 条 件 或 其 他 事先 预定 的 属性 的 那些 规则 ( 例 
如 ， 分 类 规则 ) 。 可 由 一 个 参数 来 决定 是 否 允 许 否定 条 件 在 前 件 或 后 件 ， 或 两 者 中 同时 出 现 ; 
其 他 参数 控制 寻找 规则 的 数量 、 最 低 确认 度 、 最 低 覆 盖 量 、 反 例 的 最 高 比例 、 规 则 的 最 大 范 
围 。 缺 失 值 可 以 匹配 任意 值 ， 或 干脆 不 匹配 ， 或 可 起 显著 作用 且 可 能 出 现在 规则 中 。 


11.8 属性 选择 


图 11-33 展示 了 Weka 的 属性 选择 面板 的 一 部 分 ， 用 户 可 在 上 面 设 定 属性 评估 器 和 搜索 
方法 。 表 11-9 和 表 11-10 列 出 了 所 有 的 选项 。 属 性 选择 一 般 通 过 搜索 并 评估 属性 子 集 空间 来 
实现 〈7. 1 节 ) 。 这 可 通过 结合 表 11-9 中 的 6 个 属性 子 集 评估 器 的 一 个 和 表 11-10 中 10 种 搜 
索 方法 的 一 个 来 完成 。 一 个 具有 快速 运行 潜力 但 不 是 很 精确 的 方法 是 ， 对 属性 逐一 评估 然后 
进行 排列 ， 删 除 截止 点 以 下 的 所 有 属性 。 这 可 通过 挑选 表 11-9 中 11 个 单一 属性 评估 器 的 一 
个 ， 再 使 用 表 11-10 中 的 排序 法 来 完成 。Weka 界面 允许 用 户 从 表 11-9 中 选 定 一 种 选择 方法 ， 
也 可 以 从 表 11-10 中 选 定 一 种 搜索 方法 ， 如 果 用 户 选择 了 不 适当 的 组 合 ，Weka 界面 会 反馈 出 


[a7] ” 错 信 息 。 用 户 可 根据 状态 栏 中 的 指示 到 出 错 日 志 中 查看 信息 (参见 11. 1 节 的 结尾 部 分 ) 。 
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图 11-33 属性 选择 : 指定 一 个 评估 器 和 一 个 搜索 方法 
表 11-9 用 于 属性 选择 的 属性 评估 方法 表 








名 称 功能 
CsfSubsetEval 考虑 每 个 属性 的 预测 值 ， 以 及 在 它们 中 间 的 元 余 程度 
ClassifierSubetEval 使 用 分 类 器 来 评估 属性 集 
属性 子 ConsistencySubsetEval 将 训练 数据 集 映 射 到 属性 集 上 来 检测 类 值 的 一 致 性 
集 评估 器 CostSensitiveSubsetEval 让 其 基本 子 集 评估 器 变 得 成 本 敏感 
FilteredSubsetEval 将 一 个 子 集 评估 器 应 用 到 过 滤 后 的 数据 上 
WrapperSubsetEval 使 用 分 类 器 和 交叉 验证 
ChiSquaredAttributeEval 计算 每 个 属性 的 基于 类 的 卡 方 统计 量 
CostSensitiveAttributeEval 使 其 基本 属性 评估 器 变 得 成 本 敏感 
GainRatioAttributeEval 将 属性 评估 器 应 用 到 过 滤 后 的 数据 上 
FilteredAttributeEval 以 增益 比率 为 依据 的 属性 评估 
InfoGainAttributeEval 以 信息 增益 为 依据 的 属性 评估 
> 一 属 LatentSemanticAnalysis 执行 一 个 潜在 的 语义 分 析 及 转换 
性 评估 器 OneRAttributeEval 用 OneR 的 方法 论 来 评估 属性 
PrincipalComponents 进行 主 成 分 分 析 及 转换 
ReliefFAttributeEval 基于 实例 的 属性 评估 器 
SVMAttributeEval 使 用 线性 支持 向 量 机 来 决定 属性 值 
SymmetricalUncertAttributeEval 以 对 称 不 确定 性 为 依据 的 属性 评估 
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3211-10 用 于 属性 选择 的 搜索 方法 








名 称 功能 
搜索 方法 BestFirst 带 返回 的 贪心 登山 式 搜索 
ExhaustiveSearch 穷 举 搜索 
GeneticSearch 使 用 一 个 简单 遗传 的 算法 进行 搜索 
GreedyStepwise 不 带 返 回 的 贪心 登山 式 搜索 ; 具有 产生 属性 排序 列表 的 可 选项 
LinearForwardSelection 最 优 最 先 的 扩展 版 ， 在 搜索 中 扩展 当前 点 是 考虑 了 剩余 属性 的 限定 数目 
RaceSearch 使 用 竞赛 搜索 方法 
RandomSearch 随机 搜索 
RankSearch 对 属性 进行 排序 ， 使 用 属性 子 集 评估 器 对 潜力 子 集 进行 排名 
ScatterSearchV1 使 用 评估 分 散 搜索 算法 进行 搜索 
SubsetSizeForwardSelection LinearForwardSelection 的 扩展 ， 进 行 了 内 部 交叉 验证 来 决定 最 优 子 集 大 小 
排序 方法 Ranker 按照 属性 的 评估 对 它们 进行 逐一 而 不 是 按 子 集 ) 排序 


11.8.1 属性 子 集 评估 器 


子 集 评估 器 取 一 个 属性 子 集 ， 返 回 指导 搜索 的 一 个 数值 型 信息 。 它 们 的 配置 方法 与 We- 
ka 的 其 他 对 象 一 样 。CfsSubsetEval 逐一 评估 每 个 属性 的 预测 能 力 和 它们 之 间 的 重复 程度 ， 然 
后 挑选 那些 与 类 有 高 度 关联 但 相互 之 间 关 联 程度 却 较 低 的 属性 〈7. 1 节 )。 当 属性 集中 没有 
一 个 属性 与 所 要 加 入 的 属性 的 关联 程度 更 高 时 ， 有 一 个 选项 可 以 令 评 估 器 循环 地 加 入 与 类 有 
最 高 关联 度 的 属性 。 缺 失 值 视 为 一 个 单独 的 值 ， 或 者 根据 出 现 频率 的 比例 将 它 的 出 现 次 数 分 
摊 到 其 他 值 中 。ConsistencySubsetEval 在 训练 数据 映像 到 属性 集 上 时 ， 以 类 值 的 一 致 性 来 评估 
属性 。 由 于 任何 一 个 属性 子 集 的 一 致 性 不 可 能 比 整 集 的 好 ， 所 以 这 个 评估 器 通常 和 用 于 寻找 
与 整 集 一 致 性 相等 的 最 小 属性 子 集 的 随机 或 穷 举 搜索 法 一 起 使 用 。 

上 面 所 提 到 的 子 集 评估 器 实际 上 是 属性 选择 的 过 滤器 方法 (7.1 节 ) ClassifierSub- 
setEval 和 WrapperSubsetEval 是 包装 方法 。ClassifierSubsetEval 使 用 一 个 在 对 象 编辑 器 中 作为 
参数 指定 的 分 类 器 来 评估 训练 数据 中 的 属性 集 ， 或 一 个 单独 旁 置 集中 的 属性 集 。WrapperSub- 
setEval 也 采用 分 类 器 评估 属性 集 ， 但 它 应 用 交叉 验证 估计 学 习 方案 在 每 个 属性 集 上 的 正 
确 率 。 

余下 的 两 个 子 集 评 估 器 都 是 元 评估 器 ， 也 就 是 说 ， 它 们 使 用 预 处 理 选 项 来 增加 一 个 基本 
的 子 集 评估 器 。CostSensitiveSubsetEval 通过 根据 一 个 给 定 的 成 本 矩阵 对 训练 数据 进行 加 权 或 
重 抽样 ， 将 一 个 基本 子 集 评 估 器 变 为 成 本 敏感 评估 器 。FilteredSubsetEval 则 在 属性 选择 操作 
之 前 ， 将 一 个 过 滤器 应 用 到 训练 数据 上 。 选 择 一 个 会 改变 原始 属性 的 个 数 或 者 排序 的 过 滤 [488 
器 ， 系 统 会 产生 一 个 出 错 消 息 。 








11.8.2 单一 属性 评估 器 


单一 属性 评估 器 与 Ranker 搜索 方法 一 起 可 用 于 产生 一 个 有 序列 表 ，Ranker 可 从 列表 中 
删除 一 个 给 定 的 数字 (后面 会 有 解释 )。 这 些 评估 器 也 可 用 于 RankSearch 方法 。ReliefFAt- 
tributeEval 是 基于 实例 的 ， 它 对 实例 进行 随机 抽样 ， 并 检查 相 邻 的 具有 相同 的 及 不 同类 的 实 
例 (7. 1 节 ) 。 该 评估 器 运行 于 离散 的 及 连续 的 类 的 数据 。 其 参数 可 指明 待 抽样 实例 数 、 待 
检查 的 邻居 的 数量 、 是 否 依据 距离 对 邻居 进行 加 权 ， 以 及 一 个 用 于 控制 权 伴随 距离 所 产生 大 
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减 的 剧烈 程度 的 指数 函数 。 

InfoGainAttributeEval 通过 测量 与 类 相关 的 信息 增益 来 评估 属性 。 它 首先 用 基于 MDL 的 
离散 化 方法 离散 化 数值 属性 (也 可 设 定 为 将 属性 二 元 化 而 不 是 离散 化 ) 。 该 方法 ， 加 上 下 面 
要 谈 到 的 三 种 方法 ， 可 将 缺失 值 作为 一 个 单独 的 值 来 处 理 ， 或 者 将 缺失 值 的 数量 与 其 他 值 一 起 
按照 与 它们 的 频率 成 正比 进行 分 布 。ChiSquaredAttributeEval 通过 计算 与 类 相关 的 卡 方 统计 量 来 
评估 属性 。GainRatioAttributeEval 评估 属性 方式 是 通过 测量 这 些 属性 与 类 值 相关 的 增益 比率 。 
SymmetricalUncertAttributeEval 通过 测量 属性 与 类 相关 的 对 称 不 确定 性 进行 评估 (7.1 节 )。 

OneRAttributeEval 使 用 OneR 分 类 器 所 采用 的 简单 的 精度 测量 方法 。 它 可 以 像 OneR 一 
样 用 训练 数据 进行 评估 ， 或 应 用 内 部 交叉 验证 ， 折 的 数量 是 一 个 参数 。 它 采用 OneR 的 简 
单 离散 化 方法 ， 桶 的 最 小 尺寸 是 一 个 参数 。 

SVMAttributeEval 使 用 带 线性 支持 向 量 机 的 递归 特征 消除 对 属性 进行 评估 (7.1 5). 
属性 是 根据 它们 的 系数 大 小 一 个 接 一 个 被 选 定 ， 并 逐一 重新 学 习 。 为 加 快 属 性 选择 的 速 
度 ， 可 在 每 个 阶段 删除 一 定数 量 (或 比例 ) 的 属性 。 实 际 上 ， 可 设 定 一 个 比例 以 确保 只 保 
留 一 定数 量 的 属性 ， 接 下 来 改 用 固定 数量 属性 的 处 理 方法 ， 这 样 即 可 以 快速 排除 很 多 属 
性 ， 然 后 集中 更 多 注意 力 考 虑 剩 下 的 每 个 属性 。 很 多 不 同 的 参数 传递 给 支持 向 量 机 : 复杂 
度 、s、 容 许 偏 差 及 所 用 的 过 滤 方 法 。 

与 其 他 单一 属性 评估 器 不 同 ，PrincipalComponents 和 LatentSemanticAnalysis 转换 的 是 
整个 属性 集 。 新 属性 是 按照 它们 特征 值 的 大 小 排序 (7.3 节 )。 一 个 可 选项 是 ， 可 通过 挑 
选 足够 的 特征 向 量 以 构成 给 定 比例 的 方差 〈 默 认 值 是 95% ) 。 用 户 还 可 使 用 该 评估 器 将 经 
过 缩减 后 的 数据 转换 回 原来 的 空间 。 

LatentSemanticAnalysis 将 奇异 值 分 解 应 用 到 训练 数据 上 。 奇 异 值 分 解 与 主 成 分 分 析 相 
关 ， 两 者 都 将 产生 代表 原始 属性 线性 组 合 的 方向 ,但 奇异 值 分 解 又 与 其 不 同 ， 它 从 包含 了 
原始 数据 值 的 矩阵 中 计算 而 来 ， 而 不 是 从 属性 关联 矩阵 或 者 协 方差 矩阵 计算 而 来 。 选 择 k 
个 具有 最 大 奇异 值 的 方向 ， 就 是 原始 数据 和 矩阵 的 前 个 近似 值 。 潜 在 语义 分 析 这 样 命名 的 
原因 就 在 于 它 接 下 来 挖掘 任务 的 应 用 ， 实 例 代 表 文 件 而 属性 代表 在 文件 中 有 出 现 。 在 有 些 
情况 下 ， 奇 异 值 分 解 技术 所 产生 的 方向 可 以 认为 是 相似 意义 的 合并 。LatentSemanticAnalys- 
is 允许 用 户 制定 所 抽取 方向 的 个 数 (如 排序 ) 以 及 是 否 在 分 析 之 前 将 数据 规范 化 。 

剩 下 的 两 个 属性 评估 器 ，CostSensitiveAttributeEval 和 FilteredAttributeEval ， 都 是 元 评估 
器 。 它 们 是 前 面 描述 的 基于 子 集 副本 的 单 属 性 版 本 。 前 者 通过 根据 成 本 矩阵 对 训练 数据 进 
行 加 权 或 者 重 抽 样 来 增加 一 个 基 评 估 器 ， 后 者 在 把 训练 数据 应 用 到 基 评 估 器 之 前 先 将 其 通 
过 一 个 过 滤器 。 


11.8.3 搜索 方法 


搜索 方法 遍历 整个 属性 空间 以 便 找 出 一 个 好 的 子 集 。 品 质 好 坏 是 通过 选 定 的 属性 子 集 
评估 器 来 衡量 的 。 每 种 搜索 方法 都 可 通过 Weka 的 对 象 编辑 器 进行 配置 。BestFirst 通过 返 
回 进行 贪心 式 爬 山 搜 索 ， 用 户 可 指定 系统 在 连续 遇 到 多 少 个 未 改进 结 点 后 才 返 回 。 它 可 以 
从 一 个 空 的 属性 集 正 向 搜索 ， 或 从 一 个 满 集 反 向 搜索 ， 或 从 中 间 的 一 个 点 开始 ( 由 一 列 属 
性 索引 指定 ) 并 向 前 后 两 个 方向 ， 通 过 考虑 所 有 可 能 的 单个 属性 加 入 及 删除 进行 搜索 。 已 
经 评估 过 的 子 集 将 保存 在 高 速 缓冲 存储 器 中 ， 以 提高 效率 。 缓 冲 器 的 大 小 是 一 个 参数 。 
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GreedyStepwise 对 属性 子 集 空 间 进行 贪心 式 搜索 。 与 BestFirst 类 似 ， 它 也 可 以 由 一 个 
空 集 开始 正 向 处 理 或 从 满 集 开始 反 向 处 理 。 与 BestFirst 不 同 的 是 ， 它 不 返回 ， 一 旦 加 入 或 
删除 最 佳 剩 余 属性 导致 评估 度量 下 降 时 ， 它 能 够 及 时 终止 。 在 另 一 种 模式 中 ， 它 通过 由 空 
至 满 (或 由 满 至 空 ) 遍历 属性 空间 以 及 记录 属性 被 选 定 的 顺序 来 为 属性 排序 。 用 户 可 指定 
要 保留 的 属性 数量 或 设 定 一 个 阔 值 ， 低 于 国 值 则 属性 将 被 删除 。 

LinearForwardSelection 和 SubsetSizeForwardSelection 是 BestFirst 的 扩展 ， 前 者 目的 是 减 
少 搜索 过 程 中 使 用 的 评估 器 的 个 数 ， 而 后 者 旨 在 得 到 一 个 压缩 的 最 终 子 集 (Cutlein 等 ， 
2009 ) 。LinearForwardSelection 限制 每 一 个 选择 步骤 中 属性 扩展 的 个 数 。 一 共有 两 种 操作 模 
式 ， 都 是 从 使 特定 子 集 评估 器 进行 属性 排序 开始 。 第 一 种 模式 叫做 固定 集 (fixed set) ， 这 
种 模式 只 在 排名 前 & 的 属性 上 执行 一 个 前 向 最 佳 优 先 搜 索 ; 另 一 种 模式 叫做 固定 宽度 
(fixed width) ， 这 种 搜索 每 一 步 都 通过 从 排名 前 有 的 属性 中 选择 一 个 属性 来 实现 最 佳 子 集 
的 扩展 。 然 而 ， 它 并 没有 在 每 次 扩展 完成 以 后 不 断 减 小 可 用 属性 池 的 大 小 ， 而 是 通过 添加 
来 自 初 始 排 名 列表 里 的 属性 (只 要 属性 列表 非 空 ) 使 尺寸 保持 不 变 。 操 作 的 模式 以 及 此 
的 值 都 是 参数 。 就 像 BestFirst 一 样 ， 用 户 可 以 设置 回溯 的 程度 、 缓 存 的 大 小 ， 以 及 搜索 开 
始 时 的 属性 列表 。 标 准 前 向 搜索 也 是 如 此 ，LinearForwardSelection 提供 了 一 个 选项 用 于 执 
行 一 个 浮动 前 向 搜索 ， 它 在 每 个 前 向 步骤 之 后 都 考虑 了 一 系列 连续 单 属性 淘汰 步骤 一 一 只 
要 这 个 步骤 能 带 来 提升 。 

SubsetSizeForwardSelection 扩展 了 LinearForwardSelection， 过 程 同 时 也 决定 了 最 佳 的 子 
集 大 小 。 最 佳 子 集 大 小 通过 在 训练 数据 上 进行 一 个 m 折 交 又 验 证 得 到 。LinearForwardSe- 
lection 被 应 用 了 m 次 ， 在 交叉 验证 的 每 个 训练 集 上 都 要 运行 一 次 。 给 定 一 个 测试 的 折 来 评 
佑 每 个 由 LinearForwardSelection 在 其 相应 训练 集 上 得 到 的 子 集 大 小 。 然 后 将 所 有 子 集 大 小 
的 性 能 区 平均 。 最 后 ， 将 LinearForwardSelection 应 用 到 所 有 数据 上 ， 找 到 一 个 具有 最 佳 大 
小 的 子 集 。 和 LinearForwardSelection 提供 的 选项 一 样 ， 在 决定 最 佳 子 集 大 小 时 候 所 用 的 评 
估 以 及 折 的 大 小 都 是 可 以 指定 的 。 

在 与 基于 包装 的 评估 器 配对 时 ，LinearForwardSelection 和 SubsetSizeForwardSelection 两 
者 对 过 度 拟 合 的 抵制 都 有 所 表现 ， 而 过 度 拟 合 是 将 标准 前 向 选择 或 最 佳 优先 选择 与 包装 器 
一 起 使 用 时 会 出 现 的 情况 。 再 者 ， 这 两 者 都 选择 了 比 标准 前 向 选择 和 最 佳 优 先 更 小 的 最 终 
子 集 ， 同 时 保持 了 相当 的 正确 率 〈 若 选 定 的 上 足够 大 ) 。LinearForwardSelection 的 速度 比 标 
准 前 向 选择 和 最 佳 优先 选择 都 快 。 

与 ClassifierSubsetEval 一 起 使 用 的 RaceSearch 用 竞赛 搜索 法 来 计算 竞争 属性 子 集 的 交 
叉 验证 误差 (7.1 节 )。7.1 节 所 描述 的 四 种 不 同 的 搜索 已 经 实现 : 正 向 选择 、 反 向 删除 、 
模式 搜索 和 排序 竞赛 。 在 最 后 一 种 情况 中 ， 使 用 一 个 单 属性 评估 器 (该 评 佑 器 也 可 被 指 
E) 来 产生 一 个 初始 排序 。 如 果 使 用 正 向 选择 ， 还 可 以 通过 继续 竞赛 直至 所 有 属性 都 选 定 
产生 一 个 有 序 属 性 列表 。 排 好 的 序列 与 属性 加 入 列表 中 的 顺序 相 一 致 。 与 GreedyStepwise 
一 样 、 用 户 也 可 指定 要 保留 的 属性 的 数量 ， 或 设 定 一 个 净值 ， 低 于 阔 值 则 属性 将 被 删除 。 

GeneticSearch 利用 一 个 简单 的 遗传 算法 (Goldberg，1989)。 它 的 参数 包括 人 口 数量 ， 
世代 的 数量 、 交 叉 与 突变 的 概率 。 作 为 出 发 点 ， 用 户 可 指定 一 个 属性 索引 列表 ， 它 将 成 为 
起 始 人 群 的 一 个 成 员 。 进 展 报 告 是 按照 每 一 定数 量 的 世代 产生 的 。RandomSearch 随机 搜索 
属性 子 集 空 间 。 如 果 已 有 一 个 初始 集 ， 它 会 搜索 与 初始 状态 相 比 有 改善 (或 等 同 ) ， 并 且 
含有 较 少 (或 同样 数量 ) 的 属性 。 否 则 ， 它 会 从 一 个 随机 点 开始 搜索 并 报告 所 发 现 的 最 佳 
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子 集 。 将 所 有 属性 置 入 初始 集中 ， 即 得 出 Liu 和 Sectiono (1996) 的 概率 特征 选择 算法 。 
用 户 可 决定 对 多 大 比例 的 搜索 空间 进行 探索 。ExhaustiveSearch 由 空 集 开 始 搜索 属性 子 集 的 
全 部 空间 ， 并 报告 所 发 现 的 最 佳 子 集 。 如 果 已 提供 了 一 个 初始 集 ， 则 它 会 从 该 起 始点 开始 
反 向 搜索 并 报告 最 小 的 具有 较 好 (或 等 同 ) 评估 的 最 小 的 子 集 。 
RankSearch 首先 用 一 个 单一 属性 评估 器 对 属性 进行 排列 ， 然 后 用 一 个 属性 子 集 评 估 器 
对 有 潜力 的 子 集 进行 排序 。 与 通常 做 法 一 样 ， 后 者 在 图 11-23 顶部 的 框 中 指定 ， 属 性 评估 
器 在 RankSearch 的 对 象 编辑 器 中 是 作为 一 个 特性 指定 的 。 它 首先 用 单一 属性 评估 器 对 属性 
493] ”进行 排列 ， 然 后 用 子 集 评估 器 来 评估 不 断 膨胀 的 子 集 ，( 最 佳 属性 ， 最 佳 属性 加 上 下 一 个 
最 佳 属 性 ， 等 等 ) ， 不 断 汇报 最 好 的 子 集 。 这 种 进程 具有 较 低 的 运算 复杂 度 : 两 种 评估 器 
被 调用 的 次 数 与 属性 的 数量 呈 线 性 关系 。 如 果 使 用 简单 的 单一 属性 评估 器 (例如 ，Gain- 
RatioAttributeEval) ， 选 择 会 非常 快 。 
ScatterSearchV1 使 用 了 一 种 基于 评估 的 分 散 搜索 算法 (Laguna 和 Marti, 2003), BR 
包括 人 口 总 体 、 大 小 、 随 机 数目 种 子 、 用 于 从 已 有 成 员 中 产生 新 成 员 的 策略 。 
最 后 ， 我 们 来 描述 Ranker， 正 如 前 面 提 到 的 ， 它 不 是 一 个 属性 子 集 的 搜索 方法 ， 而 是 
一 个 用 于 单个 属性 排序 的 方案 。 它 根据 属性 的 个 体 评估 对 这 些 属 性 进行 排列 ， 且 必须 与 表 
10-9 后 半 部 分 列 出 的 单一 属性 评估 器 中 的 一 种 联合 使 用 ， 它 不 能 与 属性 子 集 评估 器 一 起 使 
FA. Ranker 不 只 是 对 属性 排序 ， 它 还 通过 删除 序 位 较 低 的 属性 进行 属性 选择 。 用 户 可 设 定 
一 个 截止 冰 值 ， 阔 值 以 下 的 属性 将 被 删除 ， 或 指明 要 保留 的 属性 的 数量 。 用 户 还 可 指定 一 
些 特定 的 属性 ， 无 论 其 序 位 高 低 ， 一 律 保 留 。 
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通过 Knowledge Flow 界面 ， 用 户 从 工具 条 中 选择 Weka 组 件 ， 这 些 组 件 被 置 于 设计 画 
布 上 ， 连 接 成 一 个 处 理 和 分 析 数 据 的 有 向 流程 图 。Knowledge Flow 界面 为 那些 喜欢 从 数据 
是 如 何在 系统 中 流动 这 样 的 角度 来 思考 问题 的 用 户 提供 了 Explorer 之 外 的 另外 一 种 选择 。 
它 还 允许 将 配置 的 设计 与 执行 应 用 于 流 数 据 的 处 理 。Explorer 界面 则 无 法 做 到 这 一 点 。 用 
户 可 通过 从 图 11-3a 所 示 面 板 底 部 的 选项 中 选择 KnowledgeFlow 来 启动 界面 。 


12.1 开始 


下 面 这 个 例子 分 步 又 详细 介绍 了 载 作 ARFF 文件 及 使 用 J]4. 8 进行 交叉 验证 。 我 们 会 描 
述 如 何 生 成 如 图 12-1 所 示 的 最 终 配 置 。 首 先 ， 通 过 单 击 DataSource 标签 (顶部 工具 条 最 
右 侧 ) 并 从 工具 条 中 选择 ARFFLoader 来 生成 一 个 数据 源 。 鼠 标的 光标 变 成 十 字 交 叉 表明 
用 户 此 时 应 该 放置 组 件 。 在 画布 上 任意 一 点 单 击 ， 一 个 ARFF 载 人 器 图 标的 复制 件 就 会 随 
之 出 现 。 要 将 此 载 人 器 与 一 个 ARFF 文件 连接 起 来 ， 右 击 载 人 器 得 到 如 图 12-2a 所 示 的 弹 
出 菜单 。 单 击 Configure 得 到 图 12-2b 中 的 文件 浏览 器 ， 用 户 可 从 中 选择 想 要 的 ARFF 文 
件 。 (ATAOE, 这 是 从 弹出 菜单 中 选择 bd MRENA ) 
= e 
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图 12-1 Knowledge Flow 界面 


352 第 三 部 分 Weka 数据 挖 据 平 台 











495 











"Tuta 
CA 3 
了 i 
| Reads a source that is in arff (attribute relation file format) format. f More ) | 
i er | 
Cie  — — — —*MH 
Name à Date Modified 
contact-lenses.arff Monday, January 11, 2010 8:39 PM | 
cpu.arff Tuesday, February 9, 2010 3.39 PM i 
- ¢pu.with.vendor.arff Monday, January 11. 2010 8:39 PM | 
+ iris.arff Monday, January 11, 2010 8:39 PM | 
labor.arff Monday, January 11, 2010 8:39 PM | 
segment-challenge.arff Monday, January 11, 2010 8:39 PM | 
segment-test.arff Monday, January 11, 2010 8:39 PM | 
Ed it i soybean.arff Monday, January 11. 2010 8:39 PM 
d i weather.arff Monday, January 11. 2010 8:39 PM 
Delete | weather.nominal.arff Monday, January 11, 2010 8:39 PM 
Set name 
Configure... 
Connections: ver IU d | 
: E | File Format: | Arff data files (*.ai $ 
instance i ornare st eo i 
dataset | Ceara) Coven) | 
Actions: | Quem an 
Start loadi ng | 站 Use relative file paths 
a) 右 击 菜单 b) Configure 菜 单项 目 中 得 到 的 文件 浏览 器 


图 12-2 配置 一 个 数据 源 


现在 我 们 用 一 个 ClassAssigner 对 象 来 指定 哪个 属性 是 类 。 在 Evaluation 面板 上 ， 单 击 
Evaluation 标签 ， 选 定 ClassAssigner， 然 后 将 其 置 于 画布 上 。 下 面 将 数据 源 与 类 指定 器 连接 
起 来 ， 右 击 数据 源 图 标 并 从 菜单 中 选择 dataset, WE 12-2a 所 示 。 一 条 类 似 橡皮 筋 的 线 会 
出 现 。 将 鼠标 移 至 类 指定 器 组 件 并 单 击 。 一 条 标记 为 dataset 的 红线 随 之 出 现 并 将 两 个 组 件 
连接 起 来 。 连 接 好 类 指定 器 后 ， 右 击 它 来 选择 类 ，( 从 出 现 的 菜单 中 ) 选 定 Configure， 并 
键入 类 属性 的 位 置 。 

我 们 用 J48 分 类 器 来 进行 交叉 验证 。 在 数据 流 模型 中 ， 我 们 首先 连接 CrossValidation- 
FoldMaker， 生 成 一 些 可 供 分 类 器 运行 的 折 ， 然 后 将 其 输出 结果 传递 给 代表 J48 的 一 个 对 
象 。CrossValidationFoldMaker 可 在 Evaluation 面板 上 找到 。 将 其 选 定 ， 置 于 画布 上 ， 再 通过 
右 击 类 指定 器 并 从 菜单 (该 菜单 与 图 12-2a 中 的 很 相似 ) 中 选择 dataset 的 方式 将 CrossVal- 
idationFoldMaker 与 类 指定 器 连接 起 来 。 下 一 步 在 Classifiers 面板 上 选 定 J48， 再 将 一 个 J48 
组 件 置 于 画布 上 。 因 为 有 很 多 不 同类 型 的 分 类 器 ， 用 户 必 须 滚动 工具 条 才能 找到 J48 。 像 
前 面 一 样 ， 将 J48 与 交叉 验证 折 生 成 器 连接 起 来 ， 但 这 一 次 要 做 双重 连接 ， 从 交叉 验证 折 
生成 器 弹出 的 菜单 中 首先 选择 trainingSet， 然 后 选 testSet。 下 一 步 在 Evaluation 面板 上 选择 
ClassifierPerformanceEvaluator， 从 右 击 J48 弹出 菜单 中 选择 batchClassifier， 将 ClassifierPer- 
formanceEvaluator Ej J48 连接 起 来 。 最 后 ， 在 Visualization 工具 条 上 把 一 个 TextViewer 组 件 
置 于 画布 上 ， 人 性 能 评估 器 从 弹出 的 菜单 中 选择 text， 将 分 类 器 性 能 评估 器 与 TextViewer 连 
接 起 来 。 

到 目前 为 止 ， 除 了 还 缺少 图 形 查 看 器 外 ， 其 他 配置 与 图 12-1 所 示 的 一 样 。 从 ARFF $ 
入 器 的 弹出 菜单 中 〈 见 图 12-2a) 选择 Start loading， 开 始 流程 的 运行 。 对 于 一 个 小 型 数据 
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集 ， 这 些 事情 很 快 就 完成 了 。 运 行 过 程 信息 会 出 现 界面 底部 的 状态 区 中 。 状 态 区 的 项 描述 
了 处 理 流 中 每 一 步 的 过 程 ， 包 括 参数 设置 (对 学 习 模式 来 说 ) 以 及 时 间 刻 度 。 处 理 步骤 的 
所 有 错误 都 会 将 状态 区 中 相应 的 行 用 红色 标 亮 进行 表示 。 图 12-3 显示 的 是 在 执行 了 
图 12-1 的 配置 之 后 得 到 的 状态 区 。 从 文本 查看 器 的 弹出 菜单 中 选择 Show results ， 在 一 个 
单独 的 窗口 中 会 看 到 与 Explorer 中 看 到 的 同样 形式 的 交叉 验证 结果 。 





Component Parameters “Tne | Stat 
[Knowledge Flow] 0:0:20 Flow loaded. 
- Finished. 


J48 -C0.25 -M2 - Finished. 
ClassifierPerformanceEvaluator ~ Finished. 


图 12-3 ”执行 了 图 12-1 的 配置 后 的 状态 区 
为 了 将 本 例 演示 完整 ， 增 加 一 个 GraphViewer 并 将 它 与 J48 图 形 输出 相连 接 ， 可 以 看 
到 为 交叉 验证 的 每 个 折 所 生成 的 树 的 图 形 化 表现 形式 。 加 入 这 个 额外 的 组 件 并 重新 进行 交 
叉 验证 后 ， 从 弹出 菜单 中 选择 Show results, ， 即 可 生成 树 的 列表 ， 每 棵 树 分 别 对 应 交叉 验证 
的 一 个 折 。 通 过 生成 交叉 验证 的 折 并 将 它们 传递 给 分 类 器 ，Knowledge Flow 模型 提供 了 一 
种 方式 将 所 得 结果 与 每 个 折 联 系 起 来 。Explorer 无 法 做 到 这 一 点 : Explorer 只 是 将 交叉 验证 
看 做 一 种 应 用 于 分 类 器 的 输出 结果 的 评估 方法 。 


12.2 Knowledge Flow 组 件 


用 户 已 经 通过 Explorer 熟悉 了 Knowledge Flow 中 的 大 部 分 组 件 。Classifiers 面板 包含 了 
Weka 中 所 有 的 分 类 器 ，Filters 面板 中 包含 过 滤器 ，Clusters 面板 中 包含 聚 类 器 ，Associa- 
tions 面板 包含 关联 规则 学 习 器 。Knowledge Flow 中 的 分 类 器 带 有 并 行 处 理 交 叉 验 证 训练 集 
的 选项 。 实 际 上 ， 目 前 双核 处 理 器 已 非常 普遍 ， 默 认为 并 行 处 理 两 个 交叉 验证 的 训练 折 。 
包含 这 个 的 选项 叫做 Execution slots, ， 可 从 右 击 了 Classifiers 组 件 选 定 Configure 之 后 出 现 的 
对 象 编辑 器 上 进行 选择 。 

可 能 的 数据 源 种 类 有 ARFF 文件 、XML ARFF 文件 、 由 电子 数据 表 导 出 的 CSV. 文件 、 
C4. 5 文件 格式 、 数 据 库 、 序 列 化 实例 、LibSVM 、SVMLight 数据 格式 ， 以 及 一 个 用 于 将 纯 
文本 文件 目录 载 人 独立 的 实例 集 的 特殊 载 人 器 ( TextDirectoryLoader) o KR TextDirectoryLo- 
ader 外 ， 每 个 数据 源 都 有 一 个 相关 的 数据 接收 器 。 

列 于 表 12-1 中 的 可 视 化 及 评估 组 件 到 目前 为 止 还 未 涉及 。 在 Visualization 组 件 一 栏 
中 ，DataVisualizer 弹出 一 个 面板 可 将 数据 可 视 化 为 一 个 如 图 11-6b 所 示 的 2 HAA, 
用 户 可 在 面板 上 选择 需要 显示 的 属性 。ScatterPlotMatrix 可 为 每 对 属性 弹出 一 个 2 维 稀 朴 点 
图 的 矩阵 ， 如 图 11-17a 所 示 。AttributeSummarizer 可 产生 一 个 类 似 图 11-3b 右 下 角 所 显示 
的 直方 图 矩阵 ， 其 中 每 一 个 直方 图 对 应 一 个 属性 。ModelPerformanceChart 用 于 绘制 ROC H 
AB Raf Bae HHA. CostBenefitAnalysis 允许 对 成 本 或 收益 权衡 进行 交互 式 的 探究 ， 成 本 及 
收益 由 各 种 成 本 矩阵 (5.7 节 ) 得 到 。 前 面 用 到 的 GraphViewer 可 弹出 一 个 如 图 11-6a 所 
示 的 用 于 可 视 化 树 状 模型 的 面板 。 如 前 所 述 ， 用 户 可 缩放 、 摇 动 及 可 视 化 结 点 上 的 实例 数 
据 (如 果 通 过 学 习 算法 存储 下 来 ) 。 
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表 12-1 可 视 化 和 评估 组 件 
名 称 功能 
可 视 化 DataVisualizer 在 一 个 2 HERE IL EP n] LEGS 
ScatterPlotMatrix Fa e RERE RE 
AttributeSummarizer 一 组 柱状 图 ， 每 个 柱状 图 对 应 一 个 属性 
ModePerformanceChart 绘制 ROC 及 其 他 阅 值 曲线 
CostBenefitAnalysis 可 视 化 成 本 或 收益 平衡 
TextViewer 将 数据 或 模型 可 视 化 为 文本 
GraphViewer 可 视 化 基于 树 的 模型 
StripChart 显示 一 个 可 滚动 的 数据 点 阵 
评估 TrainingSetMaker 由 数据 集 生成 一 个 训练 集 
TestSetMaker 由 数据 集 生成 一 个 测试 集 


CrossValidationFoldMaker 
TrainTestSplitMaker 


将 一 个 数据 集 分 割 成 不 同 的 折 
将 一 个 数据 集 分 割 成 训练 和 测试 集 


ClassAssigner 将 属性 中 的 某 一 个 指定 为 类 
ClassValuePicker 为 正 类 选择 一 个 值 
ClassifierPerformanceEvaluator 为 批量 评估 搜集 评估 统计 数据 
IncrementalClassifierEvaluator 为 递增 评估 搜集 评估 统计 数据 
IncrementalClassifierEvaluator 为 递增 评估 搜集 评估 统计 数据 
ClustererPerformanceEvaluator 为 聚 类 器 搜集 评估 数据 
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将 分 类 器 的 预测 附加 到 一 个 数据 集中 
将 训练 好 的 模型 保存 为 序列 化 的 Java 对 象 


PredictionAppender 
erializedModelSaver 


StripChart 是 一 个 专门 用 于 增 量 学 习 的 新 可 视 化 组 件 。 如 果 与 下 面 要 讨论 的 Incremen- 
talClassifierEvaluator 联合 起 来 使 用 ，StripChart 可 显示 一 个 用 于 图 示 精 确 度 的 学 习 曲 线 ， 既 


显示 百分比 精确 度 ， 又 可 给 出 方 均 根 概率 误差 ， 二 者 都 与 时 间 相 对 应 。 它 所 显示 的 是 一 个 


可 水 平 滚动 显 出 最 新 结果 的 固定 大 小 的 时 间 窗 口 。 

Evaluation 面板 所 含有 的 组 件 列 于 表 12-1 的 下 半 部 分 。TrainingSetMaker 和 TestSetMak- 
er 可 将 一 个 数据 集 变 成 一 个 相应 种 类 的 集 。CrossValidationFoldMaker 从 一 个 数据 集中 构建 
交叉 验证 的 折 ; TrainTestSplitMaker 通过 保留 数据 集中 的 部 分 数据 用 于 测试 ， 将 数据 集 分 割 
成 训练 集 和 测试 集 。InstanceStreamToBatchMaker 将 从 一 个 导入 的 “实例 ”链接 得 到 的 实例 
流 进行 收集 ， 当 最 后 一 个 实例 到 达 则 产生 一 批 数 据 集 。ClassAssigner 使 得 用 户 可 以 选择 以 
哪个 属性 作为 类 。 用 户 可 用 ClassValuePicker 选择 一 个 值 ， 该 值 在 产生 ROC X Eft Bà fé t 
线 时 可 作为 肯定 类 。ClassifierPerformanceEvaluator 搜集 评估 统计 数据 : 它 能 将 文本 评估 传 
给 文本 查看 器 以 及 将 阅 值 曲线 制 成 性 能 图 表 。IncrementalClassifierEvaluator 与 增 量 分 类 器 一 
样 的 功能 : 它 可 计算 运行 方差 等 。ClustererPerformanceEvaluator 与 ClassifierPerformanceEval- 
uator 很 相似 。PredictionAppender 以 一 个 分 类 器 和 一 个 数据 集 作 为 输入 ， 并 将 分 类 器 的 预 
测 附加 到 数据 集中 。SerizlizeModleSaver 的 操作 对 象 是 一 个 分 类 器 或 者 聚 类 器 ， 将 这 些 模 型 
保存 为 一 个 序列 化 的 Java 对 象 。 


12.8 配置 及 连接 组 件 


用 户 可 通过 单独 配置 每 个 组 件 ， 然 后 将 它们 连接 起 来 的 方式 生成 知识 流 。 图 12-4 列 
出 了 右 击 不 同 的 组 件 可 得 到 的 典型 操作 。 图 中 的 菜单 可 分 为 三 部 分 : Edit, Connections 和 
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Actions, Edit 操作 可 删除 组 件 及 打开 组 件 的 配置 面板 。 配 置 分 类 需 和 过 滤器 的 方式 与 它们 
在 Explorer 中 的 配置 方式 一 样 。 数 据 源 是 通过 打开 一 个 文件 〈 与 我 们 前 面 看 到 的 一 样 ) 进 
行 配 置 的 ， 配 置 评估 组 件 则 需要 设 定 类 似 交叉 验证 的 折 的 数量 等 参数 。Actions 操作 则 需 视 
具体 的 组 件 类 型 而 定 ， 比 如 从 一 个 数据 源 开 始 载 人 数据 ， 或 打开 一 个 窗口 显示 可 视 化 结果 
等 。Connections 操作 用 于 将 组 件 连接 到 一 起 ， 连 接 的 方式 是 从 源 组 件 上 选择 连接 类 型 ， 然 
后 再 单 击 目标 对 象 。 不 是 所 有 的 目标 都 是 可 连接 的 : 可 以 被 连接 的 目标 是 高 亮 显示 的 。 除 
非 接收 连接 的 目标 组 件 确认 所 收 到 的 连接 是 可 行 的 ， 否 则 连接 菜单 中 的 条 目 会 被 禁止 GE 
成 灰色 ) 。 


Data source Filter Classifier Data sink Visualization Evaluation 
` ; crossValidationFoldMaker 


Delete Delete Delete Delete Delete 


Set name Set name Set name Set name Set name on 
Configure... Configure... Configure... Configure... š ete 
Coasertieas = iis aoe xi Set name 
estante PILIS text FU Configure... 
raph ine ` 
dataSet 9 ae tae Show results trainingSet 
Acti Clear results tSe 
Start loading dataSet batchClassifier testSet 
Save model 
Load model 
ClassifierPerformance- 
Evaluator 
Delete 


Set name 


thresholdData 
visualizableError 


图 12-4 Knowledge Flow 组 件 的 操作 


有 两 种 可 由 数据 源 开始 的 连接 : dataSet 连接 和 instance 连接 。 前 者 用 于 批量 操作 ， 适 
用 于 像 148 一 样 的 分 类 器 ; 后 者 则 用 于 类 似 NaiveBayesUpdateable 的 流 操作 。 数 据 源 组 件 无 
法 同时 提供 两 种 类 型 的 连接 : 一 旦 一 种 连接 被 选 定 ， 另 外 一 种 就 会 被 禁止 。 当 一 个 dataSet 
连接 指向 一 个 批量 分 类 器 时 ， 该 分 类 器 需要 知道 该 连接 指向 的 是 一 个 训练 集 还 是 测试 集 。 
要 做 到 这 一 点 ， 用 户 必须 事先 用 Evaluation 面板 中 的 TestSetMaker 或 TrainingSetMaker 组 件 
将 数据 源 变 成 一 个 测试 集 或 训练 集 。 

另 一 方面 ， 一 个 指向 增 量 分 类 器 的 instance 连接 则 是 直接 建立 的 ， 因 为 该 流动 的 实例 
以 递增 的 方式 更 新 分 类 器 ， 在 训练 和 测试 之 间 没 有 分 别 。 在 这 种 情况 下 ， 预 测 是 基于 每 个 
输入 的 实例 做 出 ， 然 后 并 人 测试 结果 。 接 下 来 ， 该 分 类 器 再 根据 这 个 实例 进行 训练 。 如 果 
用 户 将 一 个 instance 连接 指向 一 个 批量 分 类 器 ， 它 将 会 当做 一 个 测试 实例 ， 因 为 训练 无 法 
递增 进行 ， 而 测试 则 可 以 。 相 反 ， 用 一 个 dataSet 连接 在 批量 模式 下 测试 一 个 增 量 分 类 器 
是 完全 可 行 的 。 

当 一 个 过 滤器 组 件 收 到 来 自 一 个 数据 源 的 输入 时 ， 它 的 连接 将 被 激活 ，dataSet 或 in- 
stance 连接 即 可 随 之 建立 。instance 连接 不 可 指向 有 监督 过 滤器 ， 或 那些 无 法 递增 处 理 数 据 
的 无 监督 过 滤器 (例如 Discretize) 。 要 从 一 个 过 滤器 得 到 一 个 测试 集 或 训练 集 ， 用 户 必 须 
给 该 过 滤器 输入 相应 类 型 的 数据 集 。 

分 类 器 菜单 中 有 两 种 类 型 的 连接 。 第 一 种 是 graph 和 text 连接 ， 可 用 图 形 和 文本 的 方 
式 显 示 分 类 器 的 学 习 状 态 ， 且 仅仅 在 该 分 类 器 收 到 一 个 训练 集 输 入 时 才 被 激活 。 另 一 种 连 
接 称 为 batchClassifier 和 incrementalClassifier， 该 种 连接 为 性 能 评估 器 提供 数据 ， 并 且 是 在 
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输入 一 个 测试 集 时 才 可 激活 。 哪 种 类 型 的 连接 被 激活 取决 于 该 分 类 器 的 类 型 。 

评估 组 件 是 一 个 大 杂烩 。TrainingSetMaker 和 TestSetMaker 将 一 个 数据 集 变 成 一 个 训练 
集 或 测试 集 。CrossValidationFoldMaker 把 一 个 数据 集 分 成 一 个 训练 集 和 一 个 测试 集 。Clas- 
sifierPerformanceEvaluator (在 12. 1 节 的 范例 中 使 用 过 ) 为 可 视 化 组 件 产生 文本 和 图 形 输 
出 。 其 他 评估 组 件 操作 与 过 滤器 相 类 似 : 它们 根据 输入 数据 随后 分 别 激活 dataset, in- 
stance, trainingSet, EX testSet 连接 (例如 ，ClassAssigner 为 一 个 数据 集 指定 一 个 类 )。In- 
stanceStreamToBatchMaker 处 理 不 断 到 达 的 实例 流 ， 将 其 整合 到 一 个 批量 数据 集 。 若 放 在 昔 
水 池 抽 样 过 滤器 (reservoir sampling filter) 之 后 它 会 更 加 有 用 ， 该 过 滤器 允许 由 车 水 池 抽 
样 之 后 产生 的 实例 用 于 训练 批 学 习 模 式 。 

尽管 有 些 可 视 化 组 件 可 做 出 一 些 类 似 Show results 及 Clear results 的 动作 ， 但 它们 却 不 
含 连 接 。 


12.4 EFJ 


Knowledge Flow 界面 从 功能 上 来 说 与 Explorer 大 致 相似 : 用 户 在 两 个 界面 上 可 进行 类 
似 的 操作 。Knowledge Flow 界面 还 提供 了 一 些 额 外 的 功能 ， 例 如 ， 用 户 可 看 到 J48 为 交叉 
验证 的 每 个 折 所 生成 的 树 。 但 它 真正 的 强项 是 进行 递增 操作 。 

Weka 有 多 个 分 类 器 可 递增 处 理 数 据 : AODE， 一 个 朴素 贝 叶 斯 版 本 (NaiveBayesUp- 
dateable) ; Winnow (甄别 ) ， 基 于 实例 的 学 习 器 (IB1, 1Bk, KStar, LWL); DMNBText、 
NaiveBayesMultinomialUpdateable 以 及 NNges JC% 2J 4f RacedIncrementalLogitBoost 以 增 量 方 
式 进行 操作 ( 见 11.1 节 )。 所 有 可 逐一 处 理 实例 的 过 滤器 都 是 增 量 式 的 : Add, AddEx- 
pression, AddValues, ChangeDateFormat, ClassAssigner, Copy, FirstOrder, MakelIndicator、 
MergeTwoValues, NonSparseToSparse, NumericToBinary, NumericTransform, NumericCleaner , 
Obfuscate, RandomSubset, Remove, RemoveType, RemoveWithValues, Reorder, Reservior- 
Sample, SparseToNonSparse, LJ SwapValues, 

如 果 在 Knowledge Flow 界面 中 连接 到 一 起 的 所 有 组 件 都 能 进行 递增 操作 ， 那 么 最 终 的 
学 习 系 统 也 可 以 。 它 不 像 Explorer 那样 ， 在 学 习 过 程 开 始 以 前 就 读 取 数 据 集 。 相 反 ， 数 据 
源 组 件 对 输入 实例 进行 逐个 读 取 并 传人 知识 流 链 。 

图 12-5a 显示 了 一 个 进行 增 量 操作 的 配置 。 一 个 instance 连接 从 载 人 器 指向 了 一 个 可 
更 新 的 朴素 贝 叶 斯 分 类 器 。 该 分 类 器 的 文本 输出 传送 给 了 可 显示 该 模型 文本 描述 的 查看 
器 。 另 外 ， 一 个 incrementalClassifier 连接 指向 了 相应 的 性 能 评估 器 。 这 样 就 生成 了 一 个 
Chart 类 型 的 输出 ， 该 输出 以 管道 的 方式 传送 给 了 一 个 条 状 图 表 可 视 化 组 件 以 产生 一 个 可 
滚动 的 数据 点 图 。 

图 12-5b 给 出 了 条 状 图 表 输 出 。 它 显示 了 与 时 间 相 对 应 的 精确 度 和 方 均 根 概率 误差 。 
随 着 时 间 的 推移 ， 整 个 点 状 图 (包括 坐标 轴 ) 向 左 移动 以 便 在 右 侧 为 新 数据 让 出 空间 。 当 
代表 时 间 点 0 的 垂直 轴 无 法 再 向 左 移 动 时 ， 它 会 停止 并 且 它 的 起 始 时 间 点 由 0 开始 增加 以 
便 与 右 侧 的 数据 保持 同一 步调 。 因 此 当 该 图 表 呈 满 屏 状态 时 ， 它 显示 的 是 一 个 最 接近 当前 
时 间 单 位 的 窗口 。 该 条 状 图 表 可 被 配置 从 而 改变 * 坐标 轴 上 显示 的 实例 数量 。 

这 种 具体 的 知识 流 配 置 可 处 理 任 意 大 小 的 输入 文件 ， 即 使 是 那些 计算 机 的 主 存储 器 无 
法 容纳 的 文件 也 可 以 。 然 而 ， 这 取决 于 分 类 器 是 如 何 进行 内 部 操作 的 。 例 如 ， 即 使 分 类 器 


第 12 章 Knowledge Fow 界 面 357 





HERTE ANo 












Classifiers 





Clusterers Associations ^ Évaluation 











| a EE 
a ee 
PW 








| [Component nmeers Ime Status : 

| knowledgeFiow} 0;:1,49 Welcome to the Weka Knowledge Flow 
E 

if 


Odi ee CENE Kt ee 


Accuracy 
RMSE (probi 


508 


b) 条 状 图 输出 
图 12-5 ”一 个 增 量 操作 的 知识 流 


505 





55 13 3x | 


Data Mining: Practical Machine Learning Tools and Techniques, Third Edition 


Experimenter 界面 





Explorer 和 Knowledge Flow 环境 可 帮助 用 户 确 定 机 器 学 习 方 案 在 给 定数 据 集 上 的 性 能 。 
但 严肃 认真 的 研究 工作 涉及 大 量 的 实验 ， 通 常 需要 在 不 同 的 数据 集 上 用 不 同 的 参数 设置 运 
行 不 同 的 学 习 方案 ， 而 这 两 种 界面 实在 是 不 适合 这 项 工作 。Experimenter 界面 使 用 户 可 设 
定 大 型 实验 ， 令 其 开始 运行 ， 然 后 即 可 离开 ， 当 实验 完成 后 再 回来 分 析 所 搜集 到 的 性 能 统 
计数 据 。 这 使 得 实验 过 程 自动 化 。 统 计数 据 可 以 以 ARFF 格式 存储 ， 且 这 些 统计 数据 本 身 
也 可 作为 进一步 数据 挖掘 的 课题 。 用 户 可 在 如 图 11-3a 所 示 的 面板 底部 的 选项 中 选择 Ex- 
perimenter， 启 动 该 界面 。 

Knowledge Flow 界面 通过 允许 不 将 整个 数据 集 一 次 完全 载 人 ， 而 进行 机 器 学 习 运 行 的 
办 法 来 解决 有 限 空间 的 问题 ， 而 Experimenter 所 超越 的 则 是 时 间 上 的 限制 。 它 含有 可 供 
Weka 高 级 用 户 将 运算 负荷 通过 Java 远程 方式 调用 方式 分 布 到 多 个 机 器 上 运行 的 机 制 。 用 
户 可 设 定 大 型 实验 ， 然 后 让 它们 自行 运行 。 


13.1 开始 


作为 一 个 范例 ， 我 们 将 在 营 尾 花 数 据 集 上 将 J48 决策 树 方法 与 OneR 和 ZeroR 两 种 基 
准 方法 进行 比较 。Experimenter 有 3 个 面板 : Setup, Run 和 Analyze, K| 13-1a 展示 了 第 一 
^: 用 户 可 通过 顶部 的 标签 选择 其 他 两 个 。 在 图 中 ， 实 验 是 已 经 设 定好 的 。 要 设 定 一 个 实 
验 ， 首 先 单 击 New (右上 角 ) 开始 一 个 新 实验 〈 并 排 的 其 他 两 个 按钮 是 用 来 存储 实验 及 打 
开 一 个 以 前 存储 过 的 实验 ) 。 然 后 ， 在 下 方 的 横 栏 中 为 实验 结果 选择 存储 目的 地 ， 图 中 选 
择 的 文件 是 Experimentl ， 并 选择 CSV fle。 再 往 下 选择 数据 集 ， 这 里 只 有 一 个 营 尾 花 数据 
集 。 在 数据 集 框 的 右 侧 ， 选 择 将 要 测试 的 算法 ， 有 3 个 。 单 击 Add new 按钮 可 得 到 一 个 标 
准 的 Weka 对 象 编辑 器 ， 从 中 用 户 可 选择 并 配置 一 个 分 类 器 。 重 复 这 个 操作 将 图 中 的 3 个 
分 类 器 添加 进来 。 至 此 ， 实 验 已 设 定好 。 

图 13-1a 中 的 其 他 设置 都 是 默认 的 。 大 想 重新 配置 一 个 已 经 在 列表 中 的 分 类 器 ， 用 户 
可 单 击 Edit selected 按钮 。 用 户 还 可 以 将 用 于 某 个 具体 分 类 器 的 选项 以 XML 格式 存储 起 来 
供 以 后 使 用 。 用 户 还 可 以 右 击 一 个 条 目 将 其 复制 到 粘贴 板 ， 然 后 从 粘贴 板 添加 或 者 开始 一 
个 配置 。 


13.1.1 运行 一 个 实验 


为 了 运行 一 个 实验 ， 单 击 Run 标签 ， 弹 出 的 面板 上 有 一 个 Stan 按钮 (及 其 他 一 些 组 
件 ) ， 单 击 它 。 操 作 完 毕 后 会 显示 一 个 简单 的 报告 。 实 验 结果 存在 文件 Experimentl.csv 中 。 
文件 的 前 两 行 显示 在 图 13- 1b rp; 它们 是 CSV 格式 〈 逗 号 分 隔 的 值 。 一 一 译 者 注 .) ， 且 
可 直接 读 人 电子 数据 表 中 ， 所 形成 的 数据 表格 的 前 面部 分 显示 在 图 13- le 中 。 每 一 行 代表 
一 个 10 折 交 叉 验证 中 的 1 折 (IL Fold 列 ) 。 交 叉 验证 为 每 个 分 类 器 ( 见 Scheme 列 ) 运行 
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10 7X (Ji Run 列 ) 。 因 此 该 文件 中 每 个 分 类 器 对 应 100 FT, 35300 f£; 〈 还 要 再 加 上 一 行文 
件 的 头 ) 。 每 行 都 含有 大 量 信息 ， 包 括 提供 给 机 器 学 习 方案 的 选项 、 训 练 和 测试 实例 的 数 
量 、 被 正确 及 错误 分 类 以 及 未 被 分 类 的 实例 的 数量 (和 百分比 ) 、 平 均 绝 对 误差 、 方 均 根 
误差 及 很 多 其 他 信息 。 

电子 数据 表 中 有 极为 丰富 的 信息 ， 但 却 很 难 消 化 。 具 体 来 说 ， 就 是 很 难 回答 上 面 提 到 
的 这 个 问题 : 到底 J48 与 基准 方法 OneR 及 ZeroR 比较 起 来 如 何 ? 对 此 我 们 要 使 用 Analyze 
面板 。 


13.1.2 分 析 结 果 


我 们 将 输出 结果 制 成 CSV. 格式 是 为 了 显示 图 13-1c 中 的 电子 数据 表 。Experimenter iff 
常 将 输出 制 成 ARFF 格式 。 用 户 还 可 以 让 文件 名 为 空 ， 在 这 种 情况 下 Experimenter 会 将 
结果 存在 一 个 临时 文件 中 。 

Analyze 面板 显示 在 图 13-2 中 。 要 分 析 刚 刚 进行 的 实验 ， 单 击 靠近 顶部 右 侧 的 Experi- 
ment 按钮 ; 否则 ， 用 户 还 可 以 提供 一 个 含有 其 他 实验 结果 的 文件 进行 分 析 。 然 后 单 击 Per- 
form test (靠近 左下 方 ) 。 随 后 ， 第 一 个 学 习 方 案 (J48) 与 其 他 两 个 (OneR 和 ZeroR) + 
比较 的 有 关 性 能 的 统计 显著 性 测试 的 结果 就 显示 在 右 侧 较 大 的 面板 中 。 

我 们 比较 的 是 百分比 准确 率 统计 : 这 是 由 图 13-2 中 左 侧 的 比较 字段 默认 选 定 的 。 三 
种 学 习 方案 是 作为 一 个 小 表格 的 表 头 水 平 排列 的 ， 分 别 用 数字 标示 为 (1) (2) 和 (3). 
表 中 列 的 标签 在 下 方 被 重新 列 出 : trees.J48 、rules.OneR 、rules.ZeroR， 只 是 为 了 防止 万 一 
表 头 中 没有 足够 的 空间 列 出 这 些 名 字 。 方 案 名 字 旁 边 的 那些 难以 预 揣测 的 整数 表明 所 用 方案 
的 版 本 。 默 认 条 件 下 它们 都 会 列 出 ， 以 避免 在 使 用 同一 算法 的 不 同 版 本 所 生成 的 结果 之 间 
产生 混淆 。 在 iris (BRE) 行 开始 的 括号 中 的 值 (100) 是 实验 的 运行 次 数 : 10 次 10 折 
交叉 验证 。 
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Configure test Test output ý 
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Testing with ta, Mase 
Datasets: i 
| Resultsets: 
Row Select | confidence: 3.05 (two tailed) 
| Sorted by: -~ 
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Column { Select — ) f 





g = | Dataset (1) trees.Jà | (2) rules (3) rules 
Com son field ent. we iris (100; 94.73 | 93.53 33.33 * 
Significance 0.05 1 d (v/ i) d] (07170) (0/9/1) 
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RUE ede Rss | (2). rules oner 2v ES NE 
t Test base ( Select 3 (3) rules.ZeroR '' 4.8055541465867952E E 
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| | Show std. deviations M 
Output Format Select Y 
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图 13-2 图 13-1 中 的 实验 的 统计 测试 结果 


三 个 方案 的 百分比 正确 率 显 示 在 图 13-2 中 : 方案 1 是 94.73% 、 方 案 2 是 93. 53 和 方 
案 3 是 33. 33% 。 结 果 旁 边 的 符号 (v 和 * ) 指明 该 结果 在 所 指定 的 统计 显著 性 水 平 上 
(当前 是 0.05， 或 者 5% ) EFT (v) BRAT (* ) 基准 方案 , 在 本 例 中 基准 方案 是 
了 48。 本 例 中 所 用 的 是 5. 5 节 中 的 纠正 重复 取样 检验。 这 里 ， 方 案 3 明显 比方 案 1 差 ， 因 
为 方案 3 的 成 功率 旁边 有 星 形 标记 。 在 第 2 列 和 第 3 列 的 底部 是 方案 运行 次 数 的 计数 数量 
(x/y/z) ， 其 中 ，(x) 表示 该 方案 在 本 实验 中 的 数据 集 上 的 性 能 好 于 基准 方案 的 次 数 ， 
(y) 表示 二 者 性 能 一 样 ，(z) 是 其 性 能 差 于 基准 方案 的 次 数 。 在 本 例 中 只 用 了 一 个 数据 
R, 方案 2 有 1 次 ， 与 方案 1 (基准 方案 ) 相等 ， 而 方案 3 有 1 次 ， 比 方案 1 (ER 
(v// *) 放 在 第 一 列 的 底部 ， 帮 助 用 户 记 忆 3 种 计数 数量 (x/y/z) 的 含义 ) 。 


13.2 简单 设置 


在 图 13-1a 中 的 Setup 面板 上 ， 我 们 在 大 多 数 选项 上 都 使 用 了 默认 值 。 图 中 的 实验 类 
型 是 10 Jr UNE, ER 10 次 。 用 户 可 在 左 侧 中 部 的 框 中 改变 折 的 数量 ， 并 在 右 侧 中 部 
的 框 中 更 改 重 复 次 数 。 实 验 类 型 是 分 类 ， 用 户 也 可 将 其 指定 为 回归 。 用 户 还 可 以 选择 一 个 
以 上 的 数据 集 ， 这 样 ， 每 种 算法 就 会 依次 应 用 于 每 个 数据 集 ， 并 可 通过 Data sets first 和 
Algorithm first 按钮 改变 循环 运行 的 顺序 。 旁 置 法 可 作为 交叉 验证 的 替代 方法 。 它 有 两 种 变 
体 ， 取 决 于 实验 时 是 保留 数据 集 的 顺序 还 是 将 数据 随机 化 。 用 户 可 指定 分 割 百分比 (默认 
是 2/3 作为 训练 集 ，1/3 作为 测试 集 ) 。 

实验 的 设置 可 以 存储 起 来 重新 启用 。 用 户 可 按 下 Notes 按钮 ， 弹 出 一 个 编辑 窗口 ， 对 
所 做 的 设置 进行 注释 。 严 谨 的 Weka 用 户 会 很 快 发 现 ， 这 里 需要 开启 一 个 实验 ， 然 后 进行 
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某 些 修改 再 返回 ， 对 实验 的 修改 可 能 是 换 一 个 新 的 数据 集 或 一 个 新 的 学 习 算 法 。 能 够 避免 
对 已 有 结果 的 重新 计算 当然 要 好 ! 况且 ， 如 果 所 得 结果 能 够 存储 在 数据 库 而 不 是 ARFF 或 
CSV 文件 中 就 更 好 ， 这 正 是 我 们 现在 要 做 的 。 在 结果 目的 地 选择 器 中 选择 JDBC database, 
连接 到 任何 带 有 JDBC 驱动 器 的 数据 库 。 这 里 用 户 需 要 给 出 数据 库 的 URL 并 填写 用 户 名 及 
密码 。 要 想 使 这 一 过 程 也 能 用 于 自己 的 数据 库 ， 用 户 需要 修改 Weka 分 布 包 中 的 weka/ex- 
periment/ DatabaseUtils.props 文件 。 如 果 用 户 对 一 个 使 用 数据 库 的 实验 做 改动 ， 只 要 以 前 计 
算 过 的 结果 还 能 从 数据 库 中 取出 来 ，Weka 就 会 沿用 它们 。 这 大 大 简化 了 通常 情况 下 可 看 
做 是 数据 挖掘 研究 特征 的 重复 实验 。 
13.3 高 级 设置 

Experimenter 有 一 种 高 级 模式 。 单 击 图 13-1a 面板 顶部 (Advanced) 则 得 到 如 图 13-3 
所 示 的 更 强 版 本 的 面板 。 该 面板 含有 更 多 用 于 控制 实验 的 可 选项 ， 例 如 ， 生 成 学 习 曲 线 的 
能 力 等 。 然 而 ， 高 级 模式 较 难 运用 ， 且 简单 模式 已 经 可 以 满足 大 多 数 要 求 。 例 如 ， 在 高 级 
模式 中 ， 用 户 可 设置 一 个 循环 用 于 测试 一 种 算法 在 一 系列 不 同 参 数值 条 件 下 的 性 能 ， 但 同 
样 的 事情 也 可 在 简单 模式 下 通过 对 该 算法 进行 多 次 测试 ， 每 次 使 用 不 同 的 参数 值 的 方式 
完成 。 
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图 13-3 ”在 高 级 模式 中 设置 一 个 实验 


使 用 聚 类 算法 运行 实验 是 用 户 可 以 在 高 级 模式 中 进行 却 不 能 在 简单 模式 中 进行 的 操 
作 。 这 里 的 实验 仅 限 于 那些 可 以 计算 概率 估计 或 密度 估计 的 聚 类 算法 ， 用 于 比较 的 主要 评 
估 度 量 是 对 数 似 然 函 数 。 要 快速 进行 聚 类 算法 设置 ， 首 先 单 击 Result generator 为 CrossVali- 
dationResultProducer 启动 一 个 对 象 编辑 器 选择 。 然 后 单 击 Choose 按钮 选择 分 割 评估 ， 从 列 
表 中 选择 DensityBasedClusterSplitEvaluator。 这 时 ， 位 于 右 下 方 包含 了 分 类 器 列表 的 面板 变 


510 





364 第 三 部 分 Weka 数据 挖 据 平 台 





HZH, Generator properties 下 拉 框 显示 为 Disabled。 重 复 上 述 操作 ， 一 个 带 有 性 能 列表 的 
新 窗口 随即 出 现 (ILE 13-4a) 。 展 开 splitEvaluator 条 目 ， 选 择 clusterer (如 图 13-4a 中 所 
AN), at Select 按钮 。 类 似 在 分 类 器 中 所 做 的 操作 ， 激 活 列表 和 添加 聚 类 模式 将 重新 出 
现在 面板 的 右 侧 底部 。 

图 13-4b 显示 了 两 个 配置 聚 类 模式 的 设置 : EM WRF SimpleKMeans 的 MakeDen- 
sityBasedClusterer。 在 运行 了 该 实验 以 后 ， 这 两 者 可 以 在 Analyze 面板 之 中 进行 对 比 。 对 比 
区 并 没有 有 意义 的 默认 设置 ， 因 此 在 按 下 Perform test 按钮 之 前 从 下 拉 框 中 选择 Log_likeli- 
hood, K| 13-4c 显示 了 这 些 聚 类 算法 的 结果 。 
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也 许 用 户 真 正 用 到 高 级 模式 的 地 方 是 设置 一 个 分 布 式 实验 ， 我 们 会 在 13.5 节 中 进行 
探讨 。 


13.4 分 析 面 板 


在 前 面 的 讨论 中 ， 我 们 使 用 Analyze 面板 进行 了 一 种 学 习 方 案 (]48) 与 其 他 两 种 方案 
(OneR 和 ZeroR) 相 比 较 的 统计 显著 性 测试 。 该 测试 基于 误差 率 ， 即 由 图 13-2 中 的 Com- 
parison field 决定 。 其 他 类 型 的 统计 则 可 由 下 拉 菜 单 中 选取 : 百分比 错误 、 百 分 比 未 分 类 、 
方 均 根 误差 、 表 5-8 中 的 其 他 误差 测量 方法 以 及 不 同 的 箭 值 。 还 有 ， 用 户 可 选中 Show std 
deviations 复 选 框 查看 被 评估 属性 的 标准 差 。 

使 用 Test base 菜单 可 将 基准 方案 由 J48 改 为 其 他 任何 一 种 学 习 方 案 。 例 如 ， 选 中 On- 
eR 意味 着 将 其 他 方案 与 OneR 进行 比较 。 实 际 上 ， 这 只 能 说 明 OneRZeroR 在 统计 显著 性 上 
有 区 别 ， 而 OneR 5 J48 之 间 却 没有 。 除 了 学 习 方 案 以 外 ，Select base 菜单 中 还 有 其 他 两 个 
选项 : Summary 和 Ranking。 前 者 将 每 种 学 习 方案 与 其 他 方案 逐一 进行 比较 并 列 出 一 个 矩 
阵 ， 和 矩阵 的 每 个 格 显 示 的 是 数据 集 的 数量 。 在 这 些 数据 集 上 ， 一 个 学 习 方 案 的 性 能 要 明显 
好 于 其 他 方案 。 后 者 根据 代表 赢 (>) 和 输 ( < ) 的 数据 集 的 总 数 对 学 习 方案 进行 排序 ， 
并 列 出 一 个 队列 表 。 队 列表 的 第 一 列 显示 赢 与 输 的 数量 之 差 。 

Row 和 Column 决定 了 待 比较 和 矩阵 的 维 数 。 单 击 Select 得 到 一 列 特征 集合 ， 包 含 了 已 
经 在 实验 中 测量 过 的 所 有 特征 ， 即 图 13- le 中 电子 数据 表 的 列 标签 。 用 户 可 任意 挑选 其 中 
的 项 目 作 为 矩阵 的 行 和 列 (用 户 所 做 出 的 选择 不 会 出 现在 Select 框 中 ， 这 是 因为 可 同时 选 
定 的 参数 不 止 一 个 ) 。 图 13-5 列 出 了 共有 哪些 项 目 被 选中 作为 图 13-2 中 的 行 和 列 。 图 中 
的 两 个 列表 显示 了 实验 所 用 的 参数 〈( 即 电子 数据 表 中 的 列 ) Dataset 被 选 定 为 行 ( 在 本 例 
中 ， 行 只 有 一 个 ， 即 葛 尾 花 数据 集 ) m Scheme, Scheme options 和 Scheme. version. ID 被 
选 为 列 〈 与 通常 一 样 ， 按 住 shift 键 同 时 单 击 鼠 标 可 选 定 多 个 项 目 ) 。 三 个 选项 都 可 在 图 
13-2 中 看 到 。 实 际 上 ， 它 们 在 底 底部 的 相关 方案 中 更 清楚 。 
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rules.QOneR ~ 6' (100) 983.53 1 3 po ae | ae 45.38 
rules.ZeroR '' (100) 33.33 | 3 4104 94 ! 33.33 33.35 
ror reu EE CDS i0 1120) 4 i 4 33.33 
*) i * re 
(v/ /*) | €0/10/0) (0/0/10) 
ce) d) 


图 13-5 13-2 中 的 行 和 列 
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如 果 将 行 和 列 的 选项 互 换 ， 并 再 次 按 下 Perform test 按钮 ， 和 矩阵 将 会 翻转 ， 所 得 结果 见 
图 13-5c。 这 里 有 3 行 ， 每 行 对 应 一 种 算法 ， 唯 一 的 一 列 对 应 着 所 用 的 数据 集 。 如 果 把 行 
由 Dataset 换 成 Run ， 再 重新 进行 测试 ， 结 果 则 如 图 13-5d 所 示 。Run 指 的 是 交叉 验证 的 运 
行 次 数 ， 共 有 10 次 ， 所 以 有 10 行 。 每 一 行 的 行 标 后 面 的 括号 中 的 数字 (图 13-5c 中 的 
100 和 图 13-5d 中 的 10) 是 对 应 着 该 行 结 果 的 数量 ， 即 显示 在 所 对 应 行 每 个 格 中 的 平均 值 
时 ， 参 与 计算 的 所 有 测量 值 的 数量 。 

还 有 一 个 按钮 用 户 可 用 来 同时 选择 列 中 的 子 集 加 以 显示 〈 代 表 着 基准 算法 的 列 总 是 包 
含 在 其 中 ) ， 另 外 一 个 按钮 用 来 选择 输出 格式 : 文本 文档 RA), HF LaTeX 排版 系统 
的 输出 格式 、CVS 格式 、HTML 、 适 用 于 GNUPlot 图 形 测绘 软件 输入 的 数据 及 脚本 ， 以 及 
仅仅 是 纯 文 本 格式 的 重要 性 符号 。 

还 有 一 个 选项 用 于 选择 是 否 使 用 成 对 纠 错 i 检验 或 者 标准 i 检验 来 计算 置信 度 。 在 结 
果 列 表 中 行 的 排列 方式 可 以 通过 从 下 拉 框 中 的 Sorting (asc. ) 选项 更 改 。 默 认 使 用 自然 排 
HF. 行 的 排列 顺序 依照 Setup 面板 中 用 户 键入 的 数据 库 名 称 顺序 。 或 者 ， 也 可 以 根据 对 比 
区 里 任何 一 个 可 用 的 度量 进行 排序 。 


18.5 将 运行 负荷 分 布 到 多 个 机 器 上 


Experimenter 的 一 个 显著 优点 是 它 能 将 一 个 实验 分 割 并 分 布 到 多 个 处 理 器 上。 这 只 适 
合 高 级 用 户 ， 且 只 能 在 Setup 面板 的 高 级 版 本 中 操作 。 由 于 从 简单 版 本 切换 到 高 级 版 本 时 ， 
实验 的 结构 可 保持 不 变 ， 所 以 有 些 用 户 通过 在 简单 版 本 设置 实验 ， 然 后 切换 到 高 级 版 本 对 
其 进行 分 布 的 方式 来 避免 使 用 高 级 版 本 的 面板 。 然 而 ， 对 一 个 实验 进行 分 布 是 高 层次 的 操 
作 ， 通 常 是 较 难 的 。 例 如 ， 文 件 和 文件 夹 权限 的 设 定 就 比较 复杂 。 

在 图 13-1a 所 示 的 面板 上 ， 当 选择 JDBC database 作为 结果 目的 地 ， 将 结果 都 发 送 到 中 
央 数 据 库 时 ， 分 布 一 个 实验 可 取得 最 好 效果 。 它 使 用 的 是 远程 方法 调用 (RMI) 机 制 ， 且 
可 与 任何 带 有 JDBC 驱动 器 的 数据 库 一 起 工作 。 分 布 实验 已 经 在 多 个 免费 的 数据 库 中 进行 
过 测试 。 还 有 一 种 可 行 的 选择 是 ， 用 户 可 令 每 台 机 器 将 各 自 的 结果 存储 为 不 同 的 ARFF X: 
件 ， 随 后 再 将 这 些 文件 合并 起 来 。 

为 了 分 布 一 个 实验 ， 每 台 终端 机 必须 : 1) 安装 Java; 2) 可 读 取 用 户 正 在 使 用 的 数据 
集 ; 3) 正在 运行 weka.experiment RemoteEngine 实验 服务 器 。 如 果 将 所 得 结果 发 送 到 一 个 
中 央 数 据 库 ， 那 么 每 台 机 器 都 必须 安装 相应 的 JDBC 数据 库 驱动 器 。 运 行 一 个 分 布 式 实验 
较 困难 的 部 分 就 是 将 以 上 这 些 正 确 完成 。 

为 了 在 一 台 计 算 机 上 开始 运行 一 个 远程 引擎 实验 服务 器 ， 首 先 将 remoteExperiment- 
Serverjar 从 Weka 分 布 包 中 复制 到 计算 机 上 的 一 个 目录 中 。 用 以 下 命令 将 其 拆 包 

jar -xvf remoteExperimentServer.jar 
它 扩展 成 三 个 文件 : remoteEngine.jar， 一 个 含有 实验 服务 器 的 可 执行 jar 文件 ， 以 及 re- 
mote.policy 和 remote.policy.example。 

remote.policy 文件 给 远程 引擎 授予 权限 令 其 进行 一 些 特定 操作 ， 如 连接 到 一 些 端口 ， 
或 存 取 一 个 文件 夹 等 。 该 文件 需 经 过 编辑 以 便 在 一 些 需 要 授予 的 权限 中 指明 正确 的 路 径 。 
当 用 户 查看 该 文件 时 就 会 不 言 自明 。 在 默认 条 件 下 ， 它 规定 所 需 代 码 可 从 Web 的 任意 地 
址 由 HTTP 80 端口 下 载 ， 但 远程 引擎 也 可 从 文件 URL 载 和 代码。 要 做 到 这 一 点 ， 或 者 在 
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remote.policy 中 取消 对 例子 的 评论 ， 或 者 根据 需要 来 调整 remote.policy.example, JA Ii — ^ 
文件 包含 一 个 在 Linux 操作 系统 下 虚构 用 户 (johndoe) 的 完整 例子 。 远 程 引擎 也 需要 能 够 
存 取 实验 中 所 用 的 数据 集 ( 见 remote.policy 中 的 第 一 个 条 目 )。 读 取 数 据 集 的 路 径 是 在 Ex- 
perimenter ( 即 客户 端 ) 中 指定 的 ， 且 同样 的 路 径 必 须 也 适用 于 远程 引擎 的 运行 条 件 。 为 
了 达到 这 个 条 件 ， 也 许 有 必要 在 Experimenter 的 Setup 面板 上 通过 选中 Use relative paths 复 
选 框 的 方式 指定 相对 路 径 名 。 

为 了 启动 远程 引擎 服务 器 ， 在 含有 remoteEngine.jar 的 目录 下 键入 


java -classpath remoteEngine.jar:Xpath to any jdbc drivers? 
-Djava.security.policy-remote.policy weka.experiment.RemoteEngine 


如 果 一 切 正常 进行 ， 用 户 会 看 到 以 下 信息 (或 类 似 信息 ): 
user@ml:remote_engine>Host name : ml.cs.waikato.ac.nz 
Attempting to start RMI registry on port 1099 .. 
RemoteEngine bound in RMI registry 


这 表明 远程 引擎 已 经 在 1099 端口 上 启动 了 RM 注册 器 ， 并 且 已 经 成 功 运行 。 用 户 可 
以 在 一 个 给 定 机 器 上 运行 多 个 远程 引擎 ， 但 只 有 该 机 器 拥有 多 个 处 理 器 或 一 个 多 核 处 理 器 
这 样 才 有 意义 。 要 运行 多 个 远程 引擎 ， 首 先 像 之 前 一 样 启动 每 个 远程 引擎 ， 但 这 里 不 使 用 
默认 端口 〈1099 ) ， 而 是 使 用 命令 行 选 项 (-p) 指定 一 个 不 同 的 端口 到 远程 引擎 上 。 对 所 
有 主机 重复 以 上 步骤 。 

现在 通过 键入 以 下 命令 启动 Experimenter: 


java -Djava.rmi.server.codebase-X4URL for weka code? weka.gui. 
experiment.Experimenter 


其 中 的 URL 指明 远程 引擎 可 到 哪里 找到 待 执行 的 代码 。 如 果 该 URL 给 出 一 个 目录 CHI 
有 Weka 目录 的 目录 ) ， 而 不 是 一 个 jar 文件 ， 那 么 它 一 定 是 以 路 径 分 隔 符 (例如 ，/) 结 
尾 的 。 

图 13-3 中 Experimenter 高 级 Setup 面板 的 左 侧 中 部 有 一 个 小 窗 格 ， 它 决定 了 一 个 实验 
是 否 会 被 分 布 。 该 窗 格 通常 是 不 活动 的 。 要 分 布 该 实验 ， 单 击 窗 格 中 的 复 选 框 (Hosts 按钮 左 
侧 。 一 一 译 者 注 ) 以 激活 Hosts 按钮 〈 单 击 Hosts 按钮 一 一 译 者 注 ) 。 一 个 窗口 会 弹出 来 询问 该 
实验 将 要 分 布 的 终端 机 器 。 终 端 机 器 的 名 字 必 须 完整 地 给 出 (例如 ，ml.cs.waikato.ac.nz) 。 

若 一 个 终端 机 运行 了 多 个 远程 引擎 ， 则 将 其 名 字 多 次 键入 到 窗口 中 ， 若 使 用 的 端口 不 
是 非 默认 的 ， 则 还 要 键入 端口 号 。 例 如 : 


ml.cs.waikato.ac.nz 
ml.cs.waikato.ac.nz:5050 


它 告诉 Experimenter, = £L ml.cs.waikato.ac.nz 运行 了 两 个 远程 引擎 ， 一 个 位 于 默认 端口 
1099 ， 另 一 个 是 端口 5050。 

进入 主机 后 ， 按 通常 方式 配置 实验 的 其 余 选 项 〈 像 前 面 提 到 的 那样 ， 最 好 配置 完 后 再 
切换 到 高 级 设置 方案 中 ) 。 使 用 Run 面板 开始 进行 实验 时 ， 不同 终端 机 器 上 的 子 实验 的 进 
程 也 会 显示 出 来 ， 同 时 显示 的 还 有 所 有 可 能 出 现 的 出 错 信息 。 

分 布 一 个 实验 涉及 将 其 分 割 成 子 实验 ， 并 通过 RMI 发 送 到 终端 机 上 执行 。 默 认 条 件 
下 ,实验 是 按照 数据 集 划分 的 ， 这 种 情况 下 终端 机 的 数量 不 可 能 多 于 数据 集 的 数量 。 因 此 
每 个 子 实验 都 是 独立 的 ， 它 将 所 有 的 学 习 方 案 应 用 于 一 个 单独 的 数据 集 。 一 个 仅 含 有 几 个 
少量 数据 集 的 实验 也 可 以 按照 运行 次 数 划 分 。 比 方 说 ,一 个 10 次 10 折 交 叉 验 证 可 分 割 成 
10 个 子 实验 ， 每 次 运行 一 个 子 实验 。 
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命令 行 界面 





Weka 的 基本 功能 隐藏 在 Weka 的 互动 式 界面 Explorer、Knowledge Flow 和 Experimenter 后 
面 。 这 些 功 能 可 以 更 直接 地 通过 命令 行 界面 运行 。 从 图 11-3a 底部 的 界面 选项 中 选择 Simple 
CLI， 得 到 一 个 简单 的 纯 文本 面板 ， 用 户 可 在 面板 底部 的 栏 中 键 和 指令。 另外， 用户 还 可 以 
在 操作 系统 的 命令 行 界面 上 直接 运行 weka.jar 文件 中 的 类 ， 要 想 以 这 种 方式 运行 ， 用 户 必须 
按照 Weka 的 README 文件 中 说 明 的 那样 ， 首 先 设 定 CLASSPATH 环境 变量 。 


14.1 开始 


fe 11. 节 的 开始 ， 我 们 利用 Explorer 在 天 气 数据 上 运行 J4. 8 学 习 器 。 要 在 命令 行 界 
面 做 同样 的 事情 ， 在 文件 面板 底部 的 栏 中 键 和 人: 


java weka.classifiers.trees.J48 -t data/weather.arff 

这 条 命令 调用 Java 虚拟 机 (在 Simple CLI rP, Java 已 经 载 人 ) 且 指 示 它 运行 J4. 8. 
Weka 是 以 包 的 形式 组 织 起 来 的 ， 对 应 着 一 个 目录 层级 结构 。 所 运行 的 程序 叫做 J48 ， 位 于 
trees 包 中 ， 是 Classifiers 的 子 包 ， 而 Classifiers 则 是 整个 weka 包 的 一 部 分 。 下 一 节 会 介绍 
更 多 有 关 包 结构 的 详细 情况 。-t 选项 表明 随后 的 参数 是 训练 文件 的 名 字 ， 假 设 天 气 数据 就 
位 于 用 户 启动 Weka 的 目录 下 的 data 子 目 录 中 。 由 运行 结果 合成 的 文本 显示 在 图 11-5 中 。 
在 简单 命令 行 (Simple CLI) 界面 中 ， 该 结果 会 出 现在 用 户 键入 命令 的 栏 的 上 方面 板 中 。 


14.2 Weka 的 结构 


我 们 已 经 解释 过 如 何在 Explorer 中 启用 过 滤器 和 学 习 方案 ， 以 及 在 Knowledge Flow 界 
面 中 将 它们 连接 到 一 起 。 为 了 进一步 深入 了 解 ， 有 必要 学 习 Weka 是 如 何 构成 的 。 有 关 
Weka 的 详细 且 及 时 得 到 更 新 的 信息 可 在 分 布 包 的 在 线 文 档 中 找到 。 该 文档 比 Explorer 和 
Knowledge Flow 的 对 象 编辑 器 中 的 More 按钮 所 给 出 的 对 学 习 和 过 滤 方 案 的 描述 技术 程度 要 
高 。 该 文件 是 通过 Sun 的 Javadoc 应 用 程序 有 源 代码 中 的 注释 文本 直接 产生 的 。 要 理解 它 
的 结构 ， 用 户 需要 知道 Java 程序 是 如 何 构 成 的 。 


14.2.1 类 、 实 例 和 包 


每 个 Java 程序 都 是 作为 一 个 类 或 类 的 集合 实现 的 。 在 面向 对 象 的 编程 中 ， 一 个 类 
(class) 就 是 变量 加 上 一 些 在 这 些 变量 上 进行 操作 的 方法 (method) 的 集合 。 合 在 一 起 , € 
们 定义 了 属于 该 类 的 一 个 对 象 的 行为 。 一 个 对 象 (object) 简单 说 就 是 一 个 为 其 所 有 的 变量 
赋值 的 类 的 实例 体 。 在 Java 中 ， 一 个 对 象 也 可 称 为 类 的 一 个 实例 。 不 幸 的 是 ， 这 与 本 书 所 用 
的 术语 相 冲 突 。 本 书 中 的 class 和 instance 出 现在 机 器 学 习 的 不 同上 下 文中 具有 截然 不 同 的 含 
义 。 从 现在 开始 ， 用 户 将 不 得 不 根据 它们 的 上 下 文 来 推测 这 些 术语 所 真正 代表 的 意思 。 区 分 
这 二 者 并 不 难 ， 而 且 有 时 我 们 会 用 object 这 个 词 来 代替 Java 中 的 instance 以 避免 歧义 。 

在 Weka 中 ， 一 个 具体 学 习 算 法 的 实现 是 封装 在 一 个 类 中 的 。 例 如 ， 上 面 描述 过 的 


$143 SARAH 369 





J48 类 会 创建 一 个 C4. 5 决策 树 。 每 次 Java 虚拟 机 执行 J48 时 ， 它 都 为 创建 并 保存 一 个 决策 
树 分 类 器 分 配 存储 器 ， 从 而 生成 一 个 该 类 的 实例 。 所 用 的 算法 、 它 所 创建 的 分 类 器 ， 以 及 
用 于 输出 该 分 类 器 的 程序 都 是 类 J48 的 实例 体 的 组 成 部 分 。 

较 大 的 程序 通常 分 割 为 一 个 以 上 的 类 。 例 如 ， 类 JAS 就 不 含 任 何 用 于 构建 决策 树 的 代 
码 。 它 只 含有 承担 大 部 分 工作 的 其 他 类 的 实例 的 参考 。 当 类 的 数量 很 多 时 ， 就 像 在 Weka 
中 一 样 ， 它 很 难 理解 及 查找 。Java 的 包 结 构 可 令 许 多 类 组 织 在 一 起 。 一 个 包 (package) 
就 是 一 个 含有 相关 联 类 的 合集 的 一 个 目录 ， 例如， 上面 提 到 过 的 包 trees 就 含有 实现 了 决 
策 树 的 类 。 所 有 的 包 根 据 一 个 层级 结构 组 织 在 一 起 ， 而 该 层级 结构 与 目录 的 层级 结构 相对 
应 ， 即 trees 是 classifiers 包 的 一 个 子 包 ， 而 classifiers 包 本 身 又 是 整个 weka 包 的 一 个 子 包 。 

当 使 用 Web 浏览 器 查看 由 Javadoc 产生 的 在 线 文档 时 ， 用 户 首先 看 到 的 是 按 英文 字母 
顺序 排列 的 Weka 中 所 有 的 包 的 一 个 列表 (IE 14-1a) (如 果 用 框架 查看 Javadoc, FAP 
会 看 到 更 详细 的 内 容 。 单 击 NO FRAMES 移 除 额外 信息 )。 这 里 我 们 依照 重要 性 先后 次 序 
从 中 挑选 几 个 加 以 介绍 。 








图 14-1 使 用 Javadoc 
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Interface 


Interface to something that can produce measures other than those calculated by 
evaluation modules. 


| 










| 


Classes implementing this interface return their capabilites in regards to datasets. 





Interface to something that can be drawn as a graph. 
Interface for something that can utilize environment variabies. 


[Copvabe sd Interface implemented by classes that can produce “shallow” copies of their objects 
[DistanceFuncton (interface for any class that can compute and retum distances between two instances. 


An indicator interface for Jython objects. 


| 


An indicator interface for serializable Jython objects 


Interface to something that can be matched with tree matching algorithms 


Muhi-Inszance classifiers can specify un additional Capabilities object for the data in 
the relational attribute, since the format of multi-instance data is fixed to 


Copyable 

| DistanceFunction 

EnvirenmentHandler 

|MultiInstanceCapabilitiesHandler 

Im— “bag/NOMINAL data/RELATIONAL class” 

mee eee ee 
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pem | 





For classes that should return their source contro} revision 


Interface to something that provides a short textua! summary (as opposed to 
toString() which is usually a fairly complete description) of itself. 
For classes that are based on some kind of publications. 


Interface implemented by classes that support undo. 


eedeansdandsr | Interface to something that makes use of the information provided by inxtance 
weights. 


bl) weka.core 页 面 


| 





Represents the abstract ancestor for string-based distance functions, like 
EditDistancc. 


Class for performing operations on an algebraic vector of floating. point values. 
Applies all known Javadoc-derived classes to a source file. 


LITE | : 
E " A general purpose class for parsing mathematical expressions involving attribute 
values. 
ibutel This clasa locates and records the indices of a certain rype of attributes, 
recursively in case of Relational attributes. lal 
At A Utility class that contains summary information on an the values that appear 
Atributestats in a dataset for a particular anribute 
[BinarySparscinstance | Class for storing a binary dare-only insancc as a sparse Vecor 
tI en 


A class that describes the capabilites (¢ g., handling certain types of atributes, 
missing Values. types of classes, etc.) of a specific classifier. 


Implements the Chebyshev distance. 


Class for handling an instance. 
| A comparator for the Instance class. 


Class for handling an ordered set of weighted instances. 



















Used for paper references in the Javadoc and for BibTex generation. 


Generates Javadoc comments from the TechnicalInformationHandlet s data. 
Ths cas pipelines pa Pin several rra 
Version 


















This class contains the version number of the current WEKA release and some 
methods for comparing another version string. 
b2) weka.core iil mi 
图 14-1 (5) 


14.2.2 weka.core 包 
core 包 是 Weka 系统 的 核心 ， 并 且 它 里 面 的 类 可 被 几乎 其 他 所 有 的 类 读 取 。 用 户 可 单 


ili weka.core 超 链接 ， 得 到 图 14-1b 所 示 的 Web 页 面 ， 看 看 它们 到 底 是 什么 。 
图 中 的 Web 页 面 可 划分 成 几 个 部 分 : 最 主要 的 是 interface summary (接口 概要 ) 和 
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class summary (类 概要 ) 。 前 者 列 出 了 所 提供 的 接口 ， 后 者 则 是 包 中 所 含有 的 全 部 类 的 一 
个 列表 。 一 个 接口 就 像 一 个 类 ， 唯 一 的 区 别 是 接口 本 身 不 做 任何 事情 ， 它 只 是 一 个 包含 不 
带 实际 实现 的 方法 列表 。 其 他 类 可 声明 它们 “实现 ”一 个 具体 的 接口 ， 然 后 为 它 的 方法 提 
供 代码 。 例 如 ，OptionHandler 接口 就 定义 了 那些 可 被 所 有 能 处 理 命令 行 选项 的 类 实现 的 方 
法 ， 这 些 类 中 包括 所 有 的 分 类 器 。 

core 包 中 关键 的 类 有 Attribute, Instance 和 Instances。 类 Attribute 的 一 个 对 象 代表 一 个 
属性 。 它 包含 了 属性 名 、 它 的 类 型 ， 以 及 它 可 能 的 取 值 (如 果 是 名 目 或 字符 串 属 性 ) 。 类 
Instance 的 一 个 对 象 含有 一 个 具体 实例 所 含 的 属性 值 ; 而 类 Instances 的 一 个 对 象 则 含有 一 
个 按 顺 序 排列 的 实例 集 ， 换 名 话说 就 是 一 个 数据 集 。 用 户 如 果 想 了 解 更 多 ， 可 单 击 它们 的 
超 链 接 。 第 15 章 谈 到 如 何 从 其 他 Java 代码 中 调用 机 器 学 习 方 案 时 会 再 次 对 这 些 类 进行 探 
讨 。 其 实 ， 用 户 不 知道 这 些 细节 也 一 样 可 以 通过 命令 行使 用 Weka, 

单 击 任何 在 线 文本 页 左上 角 的 Overview 超 链 接 会 带领 用 户 回 到 Weka 所 有 包 的 列表 
( 见 图 14-1a) 。 


14.2.3 weka.classifiers 包 


Classifiers 包 实 现 了 本 书 讨论 过 的 用 于 分 类 及 数值 预测 的 大 部 分 算法 (数值 预测 包括 在 
classifiers 中 ， 解 释 为 一 个 连续 的 类 的 预测 ) 。 在 这 个 包 中 最 重要 的 类 是 Classifier， 它 定义 了 
可 用 于 所 有 分 类 或 数值 预测 学 习 方案 的 通用 结构 。Classifier 含有 三 个 方法 : buildClassifier() , 
classifyInstance() 和 distributionForInstance() 。 在 面向 对 象 编程 的 专 有 名 词 中 ， 学 习 算法 用 Clas- 
sifier 的 子 类 代表 ， 因 此 自动 继承 这 三 个 方法 。 每 种 方案 都 会 根据 构建 分 类 器 以 及 它 对 实例 进行 
分 类 的 具体 方式 对 这 三 个 方法 进行 重新 定义 。 为 在 其 他 Java 代码 中 构建 及 使 用 分 类 器 提供 了 一 
个 统一 的 接口 。 因 此 ， 举 例 来 说 ， 同 样 的 评估 模块 可 用 来 评估 Weka 中 任何 分 类 器 的 性 能 。 

如 果 想 看 一 个 例子 ， 单 击 weka.classifiers.trees， 然 后 再 单 击 DecisionStump 。 Decision- 
Stump 是 一 个 用 于 构建 简单 单 级 二 又 决策 树 〈 用 一 个 额外 的 分 支 代表 缺失 值 ) 的 类 。 它 的 
文本 页 显示 在 图 14-2 中, 在 靠近 文本 顶部 的 地 方 给 出 了 该 类 完整 有 效 的 名 字 
weka.classifiers.trees.DecisionStump 。 任 何 时候 用 户 想 从 命令 行 构 建 一 个 决策 桩 ， 都 必须 使 
用 这 个 长 长 的 名 字 。 类 的 名 字 会 出 现在 一 个 小 的 树 结构 中 ， 与 其 同时 显示 的 还 有 这 个 类 的 
层级 结构 中 其 他 相关 联 的 部 分 。 从 该 结构 中 用 户 可 观察 到 ，DecisionStump 是 
weka.classifiers.Classifier 的 一 个 子 类 ， 而 weka.classifiers. Classifier 本 身 是 java.lang.Object 的 
一 个 子 类 。 在 Java 中 ， 类 Object 是 最 通用 的 类 ， 所 有 的 类 都 自动 成 为 它 的 子 类 。 

在 介绍 了 有 关 类 的 笼统 信息 (简洁 的 注释 文本 ) 、 版 本 和 作者 之 后 ， 图 14-2 给 出 了 该 
类 的 构造 函数 及 方法 的 一 个 索引 。 一 个 constructor (构造 函数 ) 就 是 一 种 特殊 的 方法 ， 无 
论 何 时 ， 当 一 个 类 的 对 象 生 成 ， 通 常 也 就 是 初始 化 那些 联合 定义 该 对 象 状 态 的 变量 时 ， 该 
方法 总 会 被 调用 。 方 法 索引 列 出 了 每 个 方法 的 名 字 、 它 所 接受 的 参数 类 型 ， 以 及 对 其 功能 
的 一 个 简短 描述 。 在 那些 索引 的 下 面 ， 该 Web 页 面 给 出 了 有 关 构 造 函数 和 方法 的 更 多 细 
节 。 我 们 以 后 会 对 这 些 细节 加 以 讨论 。 

正如 图 中 所 示 ，DecisionStump 由 Classifier 重 写 了 distributionForInstance() 方 法 ， 即 Clas- 
sifier 类 中 classifyInstance() 的 默认 实现 ， 然 后 用 该 方法 产生 它 自 己 的 分 类 结果 。 除 此 以 外 ， 
它 还 有 getCapabilities() 、getRevision () globalInfo() 、toSource() 、toString() 和 main () 方 法 。 
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下 面 简短 地 讨论 getCapabilities() 。getRevision () 方 法 简单 地 返回 分 类 器 的 修订 号 。weka.core 
包 中 有 一 个 公用 类 将 其 打印 到 屏幕 上 ， 当 用 户 报告 了 诊断 和 调试 问题 时 ， 它 将 被 Weka 保持 
器 调用 。globalImfo() 方 法 返回 一 个 用 于 描述 分 类 器 的 字符 串 ， 单 击 通用 编辑 器 的 More 按钮 
( 见 图 11-7b) 可 以 看 到 该 方法 及 方案 的 选项 。toString() 方 法 返回 一 个 用 来 在 屏幕 上 进行 显示 
的 分 类 器 的 文本 描述 ，toSource() 方 法 则 用 于 获得 所 学 习 的 分 类 器 的 源 代 码 表述 。 当 用 户 想 从 命 
令 行 得 到 一 个 决策 桩 ， 换 名 话说 ， 当 用 户 键入 如 下 指令 为 开头 的 命令 时 ， 调 用 main() 方 法 : 


java weka.classifiers.trees.DecisionStump 


类 中 的 main() 方 法 表示 该 类 可 以 从 命令 行 启 动 ， 并 且 所 有 的 学 习 方 法 以 及 过 滤器 算法 








uU 4 n 
都 可 以 执行 它 。 
Overview Package [ETT Tree Deprecated Index Help Weka's home 
PREV CLASS NEXT CLASS FRAMES MEE AB Cissses 
| SUMMARY. NESTED | FIELO | CONSTR | METHOO DETAIL FIELD | CONSTR | METHOD | 
人 | 
|wekaclassifierstrees 
(Class DecisionStump 


| 

1javc.lang.Object | 
iweka. classifiers. Classifier | — 
L—weka.classifiers.trees.DecisionStump 






[DecisionStumpO 


Method Summary 











j^ Implemented Interfaces: 

javaio Serializable, java lang.Cloneuble, Spurcable, Capabilities HarxDer, OptionHandler, 
| RevisionHandler. WeigbtedinstancesHandier 
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laste class DecisionStump | d 
extends Classifier | 
implements WeightedInstancesHandler, Sourceble 







distributionForInstance(Instance instance) 
1 Caiculates the class membership probabilities for the givea test 

[Class for building and using a decision s stamp. Usually used in conjunction with a boosting | 1 instance. 

lalgorithm. Does regression (based on mean-squared error) or classification (based on eatropy). | 

Missing is treated as 2 separate value. 


Typical usage: 


javo weka.classifiers.meta.LogitBoost -I 100 -W 
wekc.classifiers.trees.DecisionStump -t trcining dota 







ies |getCapabi Lities() 
Returns default capabilit 





isionO 
Rewurns the revision sting. 
globallnfo() 


Returns a string describing classifier 
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| 
| 
Valid options arc: static voidimgin(java.lang.String[] argv) 
-D i Main method for testing this class. 
| If set, clossifier is run in debug mode cnd | | 3av0- long. String | toSource java. lang. String className) 
| may output additional info to the console | i Returns the decision tree as Java source code. 
i. 
| java.lang.String | toSEringO 
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Version: 
| SRevision: $835 $ Returns a description of the classificr. 
Author: 
Eibe Frank (cibe& cs waikato ac nz) 
See Also: - 
Serialized Fors, ssifylnstance, zebuglipText, forName, getQebug, getOptions, 
| istOptions, mekeCopies, makeCony, setDebug, setOptions 











a) b) 


图 14-2 weka.classifiers.trees 包 中 的 一 个 类 DecisionStump 


getCapabilities() 方 法 由 通用 编辑 器 调用 ， 用 于 提供 学 习 方 案 ( 见 图 11-9d) 的 性 能 信 
息 。 当 buildClassifier() 方 法 被 调用 之 后 ， 训 练 数据 与 学 习 方 案 的 性 能 进行 核对 ， 若 分 类 器 
状态 性 能 与 数据 特征 不 匹配 ， 则 会 弹出 错误 信息 。getCapabilities() 方 法 呈现 在 Classifier 类 
里 ， 默 认 情 况 下 所 有 性 能 都 可 用 〈 即 不 带 任何 约束 ) 。 这 让 新 的 Weka 程序 员 更 容易 启动 ， 
因为 他 们 不 需要 一 开始 就 学 习 并 指定 相应 的 性 能 。 第 16 章 将 给 出 更 多 有 关 性 能 的 细节 。 


14.2.4 其 他 包 
图 14- 1a 中 列 出 的 其 他 几 个 包 同 样 值 得 研讨 : weka.associations 、weka.clusterers 、weka.data- 


generators, weka.estimators, weka.filters 和 weka.attributeSelection, 4J, weka.associations 包含 关联 
规则 学 习 器 。 将 这 些 关联 规则 学 习 器 列 为 一 个 单独 的 包 是 因为 关联 规则 与 分 类 器 有 着 根本 
的 区 别 。weka.clusterers 包 里 是 用 于 无 监督 学 习 的 方法 。 在 weka.estimators 包 中 包含 一 个 通 
JH Estimator 类 的 子 类 ，Estimator 类 可 用 于 计算 不 同类 型 的 概率 分 布 。 朴 素 贝 叶 斯 算法 (A 
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及 其 他 算法 ) 会 用 到 这 些 子 类 。 

在 weka.filters 包 中 ， 类 Filter 定义 了 含有 过 滤器 算法 的 类 的 一 般 结 构 ， 这 些 算法 都 作为 
Filter 的 子 类 实现 。 与 分 类 器 一 样 ， 过 滤器 也 可 在 命令 行 中 使 用 ， 我 们 很 快 会 谈 到 如 何 使 用 。 
Weka.attributeSelection 包 中 含有 几 个 用 于 属性 选择 的 类 。Weka.filters.supervised.attribute 包 中 
的 AttributeSelectionFilter 会 用 到 这 几 个 类 ,但 它们 也 可 被 单独 调用 。 


14. 2.5 Javadoc 索引 


正如 上 面 提 到 的 那样 ， 所 有 的 类 都 自动 成 为 Object 的 子 类 。 要 查看 与 Weka 中 类 的 层 
级 结构 相对 应 的 树 ， 从 任何 在 线 文 本 页 的 顶部 选择 Overview 链接 。 单 击 tree 则 有 一 个 树 的 
全 貌 呈 现 出 来 ， 该 树 显示 的 是 某 个 类 的 子 类 或 超 类 ， 例 如 ， 那 些 继 承 了 Classifier 的 类 等 。 

在 线 文档 包含 了 Weka 中 所 有 公开 使 用 的 变量 〈 称 为 字段 (field) ) 及 方法 的 一 个 索 
引 。 换 名 话说 ， 即 所 有 可 从 用 户 自 己 的 Java 代码 中 读 取 的 字段 和 方法 。 要 查看 这 个 索引 ， 
单 击 Overview， 然 后 单 击 Index, 

假如 设 用 户 想 知道 哪些 Weka 的 分 类 器 和 过 滤器 可 进行 增 量 操作 ， 在 索引 中 搜索 in- 
cremental 这 个 字 ， 很 快 将 用 户 引 导 至 关键 字 UpdateableClassifier。 实 际 上 ， 这 是 一 个 Java 
接口 : 接口 在 展示 出 全 貌 的 树 中 被 列 于 类 的 后 面 。 用户 想 要 找 的 是 实现 了 该 接口 的 所 有 
类 。 在 任何 出 现 该 接口 的 字 上 单 击 ， 就 会 得 到 一 个 描述 该 接口 并 列 出 了 实现 该 接口 的 所 有 
分 类 器 的 页 面 。 如 果 用 户 不 知道 关键 字 StreamableFilter， 那 么 要 找到 想 要 的 过 滤器 则 有 点 
儿 难 。StreamableFilter 是 一 个 用 于 令 数据 呈 “ 流 ” 式 通过 过 滤器 的 接口 的 名 字 ， 该 页 面 同 
样 列 出 了 实现 该 接口 的 过 滤器 。 如 果 已 经 知道 了 任何 可 进行 增 量 操作 的 过 滤器 的 例子 ， 那 
么 用 户 会 在 不 经 意 间 发 现 这 个 关键 词 。 


14.8 命令 行 选项 


在 上 面 所 举 的 例子 中 ，-t 选项 用 于 在 命令 行 中 实现 训练 文件 的 名 字 与 学 习 算法 通信 。 许 
多 其 他 选项 可 用 于 任何 学 习 方 案 ， 也 有 一 些 与 具体 方案 相关 联 的 选项 只 能 用 于 某 些 方案 。 如 
果 用 户 调用 一 个 带 有 -h 或 者 - help 选项 的 方案 ， 或 者 没有 任何 的 命令 行 选项 ， 它 会 显示 所 有 
可 用 的 选项 : 首先 是 通用 性 选项 ， 接 着 是 与 该 方案 相关 联 的 选项 。 在 命令 行 界面 中 ,键入 : 

java weka.classifiers.trees.J48 -h 
用 户 会 看 到 一 列 适用 于 所 有 学 习 方案 的 通用 选项 ， 如 表 14-1 EUR, X 14-2 中 的 只 适用 于 
JA8 的 选项 。 其 中 的 -info 是 一 个 值得 注意 的 选项 ， 它 输出 该 方案 的 一 个 非常 简要 的 描述 。 
我 们 会 对 通用 选项 加 以 说 明 ， 然 后 简单 回顾 与 具体 方案 相关 联 的 选项 。 


X 14-1 Weka 中 用 于 学 习 方 案 的 通用 选项 





选项 功能 
h 或 -help 输出 帮助 信息 
-synopsis 或 - info 与 -h 或 者 -help 结合 起 来 ， 输 出 分 类 器 的 通用 对 象 编辑 器 中 “More” 按 钮 的 信息 
-t< 训练 文件 > 指定 训练 文件 
-T< 测 试 文件 > 指定 测试 文件 。 如 果 该 选项 为 空 ， 就 在 训练 数据 上 进行 交叉 验证 
-c< 类 索引 > 指定 类 属性 的 索引 
-x< 折 的 数量 > 指定 用 于 交叉 验证 的 折 的 数量 


-s< 随机 数 种 子 > 指定 用 于 交叉 验证 的 随机 数 种 子 
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( 续 ) 
选项 功能 
-no-cv 不 执行 交叉 验证 
-split- percentage < 训练 比例 > 指定 训练 -测试 分 割 里 用 于 训练 集 的 百分比 
-perserve- order 在 执行 训练 -测试 分 割 的 时 候 保 留 数据 的 原始 顺序 
-m< 成 本 矩阵 文件 > 指定 含有 成 本 矩阵 的 文件 
-1< 输 入 文件 > 指定 模型 的 输入 文件 
-d< 输 出 文件 > 指定 模型 的 输出 文件 
-v 不 对 训练 数据 输出 统计 数据 
-0 只 输出 统计 数据 ， 不 输出 分 类 器 
Ki 对 含有 两 个 类 的 问题 输出 信息 检索 统计 数据 
-k 输出 信息 理论 统计 数据 
-p< 属 性 区 间 > 输出 测试 实例 的 预测 
-distribution 结合 -p， 为 离散 类 数据 输出 完整 概率 分 布 而 不 仅仅 是 预测 类 标 
-r 输出 累积 边际 分 布 
uA 输出 分 类 器 的 源 表 述 
-8 输出 分 类 器 的 图 形 表 述 : 
-xml < 文件 名 > | <xml string > ”从 存储 在 一 个 文件 或 给 定 字符 串 中 的 XML 编码 选项 来 设置 特殊 方案 选项 
-threshold-file < 文件 > 将 阔 值 数据 (为 得 到 ROC HRE) 保存 到 文件 
-threshold-label < 标签 > 阔 值 数据 的 类 标签 


表 14-2 与 J48 决策 树 学 习 器 相关 的 选项 








选项 功能 
-U 使 用 未 剪 枝 树 
-C< 剪 枝 置 信和 度 > 为 剪 校 指 定 置信 和 度 立 
-M < 实例 数量 > 指定 单个 叶 上 实例 数量 的 最 小 值 
-R 使 用 减少 误差 剪 枝 
-N< 折 的 数量 > 指定 用 于 减少 误差 剪 枝 的 折 的 数量 。 其 中 一 个 折 用 于 剪 枝 集 
-B 只 使 用 二 又 分 割 
-S 不 进行 子 树 上 升 
- 工 保留 实例 信息 
-A 用 拉 普 拉 斯 平滑 法 来 平滑 概率 估计 
Q 用 于 混合 数据 的 种 子 值 


14. 3.1 通用 选项 


表 14-1 中 的 选项 确定 了 哪些 数据 用 于 训练 、 哪 些 用 于 测试 、 分 类 器 是 如 何 评估 的 ， 
以 及 显示 哪 种 统计 数据 。 例 如 ， 当 用 一 个 独立 测试 集 评估 学 习 方 案 时 ，-T 选项 用 来 提供 测 
试 文件 的 名 字 。 上 默认 条 件 下 ， 在 一 个 ARFF 文件 中 最 后 一 个 属性 是 类 ， 但 用 户 可 用 -e 后 面 
接 所 选 定 的 属性 位 置 ， 将 其 他 属性 声明 为 类 ，1 表示 第 一 个 属性 ，2 表示 第 二 个 等 。 

当 进行 交叉 验证 时 (如果 不 提供 测试 文件 ， 交 叉 验 证 是 默认 选项 ) ， 数 据 首先 进行 随 
机 混合 。 如 果 要 重复 多 次 交叉 验证 ， 且 每 次 以 不 同 的 方式 随机 混合 数据 ， 则 用 -s 设 定 随机 
数 种 子 (默认 是 1) 。 在 测试 大 型 数据 集 时 ， 用 户 可 用 -x 选项 把 用 于 交叉 验证 的 折 的 数量 
从 默认 的 10 降低 至 想 要 的 数量 。 若 仅仅 要 求 在 训练 数据 上 有 好 的 性 能 ， 可 以 用 -no- ev 来 
控制 交叉 验证 ，-v 可 用 于 控制 在 训练 数据 上 的 性 能 结果 。 交 叉 验证 的 另 一 种 情况 ， 就 是 由 
-t 选项 指定 的 训练 -测试 数据 分 割 ， 它 可 以 通过 将 百分比 -split- percentage 应 用 为 新 的 训练 
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R (剩余 则 作为 测试 集 ) 。 当 通过 指定 -preserve-order 来 执行 一 个 训练 -测试 分 割 时 ， 就 可 
以 控制 数据 的 随机 化 。 

在 Explorer 界面 中 ， 成 本 敏感 评估 可 以 像 11. 1 节 中 描述 的 那样 被 调用 。 要 想 在 命令 行 
中 取得 同样 的 效果 ， 用 -m 选项 提供 一 个 含有 成 本 矩阵 的 文件 的 名 字 。 以 下 是 一 个 天 气 数 
据 的 成 本 矩阵 : 


2 2 % Number of rows and columns in the matrix 
0 10 % If true class yes and prediction no, penalty is 10 
1 0 % If true class no and prediction yes, penalty is 1 


第 一 行 给 出 了 行 和 列 的 数量 ， 也 就 是 类 值 的 数量 。 接 着 是 惩罚 和 矩阵。 由 多 引导 的 注释 
可 附加 在 任何 一 行 的 末尾 。 

同样 可 以 对 模型 进行 保存 和 载 人 。 如 果 用 户 用 - d 提供 一 个 输出 文件 的 名 字 ，Weka 就 会 
把 由 训练 数据 产生 的 分 类 器 保存 下 来 。 要 在 一 个 新 的 批量 测试 数据 上 评估 同样 的 分 类 器 ， 用 
PAN- 将 该 分 类 器 重新 载 人 ， 而 无 需 重 新 构建 。 如 果 该 分 类 器 可 增 量 更 新 ， 用 户 还 可 提供 
训练 文件 以 及 输入 文件 ，Weka 会 载 人 该 分 类 器 并 用 所 给 的 训练 实例 对 其 进行 更 新 。 

如 果 用 户 只 想 检验 一 个 学 习 方案 的 性 能 ， 用 -o 选项 可 禁止 模型 的 输出 。 用 -i 可 查看 精 
确 率 、 召 回 率 及 度量 (5.7 节 ) 的 性 能 指标 ， 用 -k 可 计算 由 一 个 学 习 方案 导出 的 概率 的 
信息 理论 指标 (5.6 节 ) 。 

通常 Weka 用 户 想 要 知道 学 习 方 案 将 每 个 测试 实例 预测 为 哪些 类 值 。-p 选项 会 显示 出 
每 个 测试 实例 的 编号 、 类 、 该 方案 所 做 预测 的 置信 度 ， 以 及 所 预测 的 类 值 ， 若 某 个 类 别 被 
错误 分 类 了 ， 则 会 标记 一 个 “+ ”以 及 预测 类 标 值 的 概率 。 通 过 将 - distribution 标志 和 -p 
结合 起 来 使 用 还 可 以 输出 实例 所 有 可 能 类 标的 预测 概率 。 这 时 候 ， 与 预测 类 标 值 相关 的 概 
率 分 布 旁 边 会 标记 有 “ * ”。-p 选项 还 会 为 每 个 实例 输出 属性 值 ， 属 性 值 后 面 必须 跟着 它 
的 值 区 间 的 详细 说 明 (例如 ，1 ~2)， 如 果 用 户 不 想 要 任何 属性 值 ， 就 用 0。 用 户 还 可 以 
输出 训练 数据 的 累积 边际 分 布 (cumulative margin distribution) ， 该 分 布 显 示 的 是 边际 指标 
的 分 布 (8.4 47) 是 如 何 随 着 提升 迭代 的 次 数 变 化 的 。 最 后 ， 用 户 可 输出 分 类 器 的 源 表 
示 ， 并 且 如 果 分 类 器 可 产生 一 个 图 形 表示 ， 也 同样 可 以 显示 出 来 。 

使 用 -threshold-file 选项 可 以 将 与 ROC. 以 及 召回 率 - 准确 率 曲 线 等 性 能 图 有 关 的 数据 
输入 到 文件 中 去 。 在 产生 数据 时 作为 正 类 的 类 标 可 以 由 -threshold-lable 指定 。 下 一 小 节 将 
讨论 命令 行 如 何 提供 方案 相关 的 选项 ， 当 然 选项 也 可 以 由 XML 文件 或 者 使 用 - xml 选项 的 
字符 串 得 到 。 


14.3.2 与 具体 方案 相关 的 选项 


KR 14-2 列 出 了 只 适用 于 ]48 的 选项 。 用 户 可 强迫 算法 使 用 未 剪 枝 的 树 ， 而 不 使 用 剪 枝 
过 的 树 。 尽 管子 树 提 升 能 够 增加 效率 ， 但 用 户 能 够 对 其 加 以 阻止 。 用 户 可 设 定 用 于 剪 枝 的 
置信 度 冰 值 ， 以 及 任何 叶 上 的 可 允许 的 实例 数量 的 最 小 值 ， 两 个 参数 在 6. 1 节 中 都 讨论 
过 。 除 了 可 执行 CA. 5 的 标准 剪 枝 程序 外 ， 也 可 进行 减少 误差 剪 枝 〈6. 2 节 ) -N 选项 控 
制 旁 置 集 的 大 小 ， 数 据 集 被 平均 划分 成 与 该 选项 的 值 相等 数量 的 部 分 ， 并 将 最 未 尾 的 部 分 
旁 置 (该 选项 默认 值 是 3)。 用 户 可 用 拉 普 拉 斯 技巧 来 平滑 概率 估计 ， 在 选择 前 枝 集 时 ， 
为 数据 的 随机 混合 设 定 种 子 值 ， 并 存储 实例 的 信息 以 备 将 来 用 于 可 视 化 。 最 后 ， 用 -B 可 
为 名 目 属性 构建 一 个 二 又 树 ， 而 不 是 通常 的 多 分 支 树 。 
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当 从 图 形 用 户 界面 或 命令 行 调用 学 习 方 案 时 ， 用 户 不 需要 了 解 任何 有 关 Java 编程 的 知 
识 。 在 本 节 中 ， 我 们 会 讲解 用 户 如 何在 自己 的 代码 中 调用 这 些 算法 。 使 用 面向 对 象 编程 语 
言 的 优势 在 以 下 的 讲解 中 会 变 得 更 清楚 。 从 现在 开始 ， 我 们 假定 用 户 至 少 知道 一 些 有 关 
Java 的 基本 常识 。 在 绝 大 多 数 数据 挖掘 的 实用 程序 中 ， 学 习 组 件 是 一 个 更 大 型 软件 环境 中 
的 一 个 完整 部 分 。 如 果 该 软件 环境 是 用 Java 写成 的 ， 用 户 无 需 自己 编写 任何 机 器 学 习 的 代 
ABI n] HY Weka 解决 有 关 的 学 习 问 题 。 


15.1 一 个 简单 的 数据 挖掘 应 用 


我 们 将 展示 一 个 简单 的 用 于 学 习 模 型 的 数据 挖掘 应 用 ， 该 模型 将 文本 文件 按 两 个 类 别 划 
分 : hit 和 miss。 该 程序 可 应 用 于 各 种 文本 : 我 们 将 这 些 文本 称 为 消息 。 它 的 实现 方法 是 用 
11. 3 节 中 提 到 过 的 StringToWordVector 过 滤器 以 7.3 节 中 描述 过 的 方式 ， 将 消息 转换 成 属性 
向 量 。 我 们 假设 每 次 处 理 一 个 新 文件 时 该 程序 都 会 被 调用 。 如 果 用 户 为 该 文件 提供 一 个 类 标 
签 ， 系 统 就 用 它 进 行 训练 ; 否则 ， 就 对 其 进行 分 类 。 决 策 树 分 类 器 JAS 用 于 做 这 项 工作 。 

图 15-1 给 出 了 在 一 个 名 为 MessageClassifier 的 类 中 实现 的 应 用 程序 的 源 代码 。main() 
方法 所 接受 的 命令 行 可 变 参数 是 : 一 个 文本 文件 的 名 字 ( 由 选项 -m 给 出 )、 持 有 类 Mes- 
sageClassifier 的 一 个 对 象 的 文件 的 名 字 (-t) ， 也 可 以 是 文件 中 消息 的 分 类 (-c)。 如 果 用 
户 提 供 一 个 (消息 的 ) 分 类 ， 消息 会 被 转换 成 用 于 训练 的 一 个 例子 ; 如 果 不 提 供 ， 则 
MessageClassifier 对 象 会 用 于 将 其 分 类 成 hit 或 miss, 


/[** 





* Java program for classifying text messages into two classes. 
s/ 


import weka.classifiers.Classifier; 

import weka.classifiers.trees.J48; 

import weka.core.Attribute; 

import weka.core.FastVector; 

import weka.core.Instance; 

import weka.core.Instances; 

import weka.core.SerializationHelper; 

import weka.core.Utils; 

import weka.filters.Filter; 

import weka.filters.unsupervised.attribute.StringToWordVector; 





import java.io.FileNotFoundException; 

import java.io.FileReader; 

import java.io.Serializable; 

public class MessageClassifier implements Serializable ( 


/** The training data gathered so far. */ 
private Instances m Data - null; 


/** The filter used to generate the word counts. */ 








图 15-1 消息 分 类 器 main() 的 源 代码 
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private StringToWordVector m Filter = new StringToWordVector(); 


/** The actual classifier. */ 
private Classifier m Classifier = new J48() 


/** Whether the model is up to date. */ 
private boolean m_UpToDate; 


/** For serialization. */ 
private static final long serialVersionUID = -123455813150452885L; 


/** 
* Constructs empty training dataset. 
BY 
public MessageClassifier() { 
String nameOfDataset = "MessageClassificationProblem"; 


// Create vector of attributes. 
FastVector attributes - new FastVector(2); 


// Add attribute for holding messages. 
attributes.addElement (new Attribute("Message", (FastVector) null)); 


// Add class attribute. 

FastVector classValues - new FastVector(2); 
classValues.addElement ("miss"); 
classValues.addElement ("hit"); 

attributes.addElement (new Attribute("Class", classValues)); 


// Create dataset with initial capacity of 100, and set index 


of class. 
m Data - new Instances(nameOfDataset, attributes, 100); 
m Data.setClassIndex(m Data.numAttributes() - 1); 


) 


/** 


* Updates model using the given training message. 
* 


* @param message the message content 
* @param classValue the class label 
ny 


public void updateData(String message, String classValue) { 
// Make message into instance. 
Instance instance = makeInstance(message, m Data); 


// Set class value for instance. 
instance.setClassValue(classValue); 


// Add instance to training data. 
m Data.add(instance); 
m UpToDate - false; 

) 


[** 


* Classifies a given message. 
* 


* @param message the message content 
* @throws Exception if classification fails 
my 


public void classifyMessage(String message) throws Exception { 


// Check whether classifier has been built. 


if (m_Data.numInstances() == 0) { 
throw new Exception("No classifier available."); 
} 


// Check whether classifier and filter are up to date. 








图 15-1 (5) 
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if (!m UpToDate) ( 
// Initialize filter and tell it about the input format. 
m Filter.setInputFormat (m Data); 


// Generate word counts from the training data. 
Instances filteredData = Filter.useFilter(m Data, m Filter); 


// Rebuild classifier. 
m Classifier.buildClassifier(filteredData); 


m UpToDate - true; 
) 


// Make separate little test set so that message 
// does not get added to string attribute in m Data. 
Instances testset - m Data.stringFreeStructure(); 


// Make message into test instance. 
Instance instance - makeInstance(message, testset); 


// Filter instance. 
m Filter.input(instance); 
Instance filteredInstance - m Filter.output(); 


// Get index of predicted class value. 
double predicted - m Classifier.classifyInstance(filteredInstance); 


// Output class value. 
System.err.println("Message classified as : "+ 
m Data.classAttribute().value((int) predicted)); 


~ 


/* 

* Method that converts a text message into an instance. 
* 

* @param text the message content to convert 

* @param data the header information 

* @return the generated Instance 

* 


/ 


private Instance makeInstance(String text, Instances data) { 


// Create instance of length two. 
Instance instance = new Instance(2); 


// Set value for message attribute 
Attribute messageAtt = data.attribute ("Message"); 
instance.setValue(messageAtt, messageAtt .addStringValue (text) ); 


// Give instance access to attribute information from the dataset. 
instance.setDataset (data) ; 


return instance; 


/** 
* Main method. The following parameters are recognized: 


* -m messagefile 

* Points to the file containing the message to classify or use 
* for updating the model. 

* -c classlabel 

i The class label of the message if model is to be updated. 

* Omit for classification of a message. 

* -t modelfile 

* The file containing the model. If it doesn't exist, it will 
* be created automatically. 

* 

* 


@param args the commandline options 





图 15-1 (#8) 
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ENT 
/ 
public static void main(String[] args) ( 


try ( 


// Read message file into string. 
String messageName - Utils.getOption('m', args); 
if (messageName.length() == 0) ( 
throw new Exception("Must provide name of message 
* file ('-m «file»')."); 


) 





FileReader m = new FileReader (messageName) ; 

StringBuffer message = new StringBuffer () ; 

int 1; 

while ((1 = m.read()) != -1) { 
message.append((char) 1); 

} 

m.close(); 


// Check if class value is given. 
String classValue - Utils.getOption('c', args); 


// If model file exists, read it, otherwise create new one. 
String modelName = Utils.getOption('t', args); 
if (modelName.length() == 0) ( 

throw new Exception("Must provide name of model 

* file ('-t «file»')."); 

) 
MessageClassifier messageCl; 
try { 

messageCl - 

(MessageClassifier) SerializationHelper. read(modelName); 
) catch (FileNotFoundException e) ( 

messageCl - new MessageClassifier(); 
) 


// Check if there are any options left 
Utils.checkForRemainingOptions (args); 


// Process message. 


if (classValue.length() != 0) ( 
messageCl.updateData(message.toString(), classValue); 
) else ( 


messageCl.classifyMessage (message.toString()); 
) 


// Save message classifier object only if it was updated. 

if (classValue.length() != 0) { 
SerializationHelper.write(modelName, messageCl); 

) 

catch (Exception e) ( 

e.printStackTrace(); 


~ 











15-1 (2) 

main() 方 法 将 消息 读 人 一 个 Java StringBuffer 中 ， 并 查看 是 否 用 户 为 其 提供 了 一 个 
分 类 。 然 后 它 根据 -t 选项 给 出 的 文件 读 取 一 个 MessageClassifier 对 象 。 如 果 该 文件 不 存在 ， 
它 会 生成 一 个 新 的 MessageClassifier 类 的 对 象 。 不 论 该 文件 是 读 入 的 还 是 新 生成 的 ， 它 都 
命名 为 messageCl。 如 果 已 经 提供 了 分 类 ， 在 经 过 查验 确信 它 不 含 非 法 命令 行 选 项 后 ， 该 
程序 调用 方法 updateData() 来 更 新 存储 在 messageCl 文件 中 的 训练 数据 ; 否则 就 调用 classi- 
fyMessage() 对 其 进行 分 类 。 最 后 ， 因 为 messageCl 对 象 也 许 已 经 发 生 了 变化 ， 它 会 被 重新 
保存 到 文件 中 。 在 下 面 的 描述 中 ， 我 们 会 首先 讨论 一 个 新 的 MessageClassifier 对 象 是 如 何 
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Ht Pte PRL MessageClassifier() 生成 的 ， 然 后 解释 两 个 方法 updateData() 和 classifyMessage() 
是 如 何 工 作 的 。 


15.1.1 MessageClassifier() 


每 当 一 个 新 的 MessageClassifier 生成 时 ， 用 于 持 有 过 滤器 和 分 类 央 的 对 象 就 自动 产生 。 
该 过 程 中 唯一 重要 的 部 分 就 是 生成 一 个 数据 集 ， 它 是 由 构造 函数 MessageClassifier() 负责 完 
成 的 。 首 先 ， 数 据 集 的 名 字 要 作为 一 个 字符 串 存储 起 来 。 然 后 为 每 个 属性 生成 一 个 Attrib- 
ute 对 象 ， 一 个 用 来 持 有 与 文本 消息 相对 应 的 字符 串 ， 另 一 个 则 用 于 持 有 数据 集 的 类 属性 。 
这 些 对 象 是 存储 在 一 个 FastVector 类 型 的 动态 数组 中 ( FastVector 是 标准 Java Vector class 
的 Weka 自我 实现 ， 因 为 历史 原因 ， 该 类 在 Weka 中 广泛 使 用 ) 。 

属性 是 通过 调用 类 Attribute 中 的 一 个 构造 函数 来 完成 的 。 在 该 类 中 有 一 个 构造 函数 ， 
该 函数 接受 一 个 参数 ， 即 属性 的 名 字 ， 并 生成 一 个 数值 属性 。 然 而 ， 这 里 我 们 用 的 这 个 构 
造 函数 必须 接受 两 个 参数 : 属性 的 名 字 和 指向 FastVector 的 一 个 参考 。 如 果 这 个 参考 是 空 
的 ， 就 像 该 构造 函数 在 我 们 的 程序 中 第 一 次 应 用 那样 ，Weka 会 生成 一 个 字符 串 类 型 的 属 
性 ; 否则 ， 则 生成 一 个 名 目 属性 。 我 们 在 前 面 的 探讨 中 假定 FastVector 所 持 有 的 是 字符 串 
类 型 的 属性 值 。 这 就 是 我 们 所 谈 到 的 用 两 个 值 hit 和 miss 来 生成 一 个 类 属性 : 即 通过 将 属 
性 的 名 字 (class) 和 存储 在 FastVector 中 的 该 属性 的 值 传 给 Attribute() 。 

为 了 从 属性 信息 生成 一 个 数据 集 ，MessageClassifier() 必须 生成 一 个 core 包 中 类 In- 
stances 对 象 。MessageClassifier() 中 调用 的 Instances 类 的 构造 函数 接受 三 个 可 变 参 数 : 数据 
集 的 名 字 、 含 有 数据 集 属性 的 一 个 FastVector， 以 及 表示 数据 集 初始 容量 的 一 个 整数 。 我 
们 将 初始 容量 设 为 100， 如 果 增 加 实例 ， 其 容量 会 自动 增加 。 构 建 好 数据 集 后 ，Message- 
Classifier() 会 把 类 属性 的 索引 设 定 为 最 后 一 个 属性 的 索引 。 


15.1.2  updateData() 


既然 用 户 知道 了 如 何 生 成 一 个 空 的 数据 集 ， 现 在 看 看 MessageClassifier 对 象 如 何 具 体 
接纳 一 个 新 的 训练 消息 。 方 法 updateData() 可 完成 这 项 工作 。 它 首先 调用 makeInstance() Æ 
成 一 个 类 Instance 的 对 象 ， 该 对 象 对 应 着 一 个 含有 两 个 属性 的 实例 ， 这 样 ， 它 就 把 一 个 给 
定 的 消息 转换 成 了 一 个 训练 实例 。Instance 对 象 的 构造 函数 将 所 有 实例 的 值 设 为 missing, 
其 权 值 设 为 1。makeImstance() 接 下 来 设 定 持 有 消息 文本 的 字符 串 属性 的 值 。 这 可 通过 调用 
Instance 对 象 中 的 setValue() 方 法 来 完成 。 有 两 个 参数 需要 提供 给 这 个 方法 ， 一 个 是 其 值 需 
要 被 修改 的 属性 ， 另 一 个 是 字符 串 属 性 的 定义 中 对 应 着 新 值 的 索引 。 这 个 索引 是 由 
addStringValue() 方 法 返回 的 ， 该 方法 将 消息 文本 作为 一 个 新 值 加 到 字符 串 属 性 中 ， 并 返回 
这 个 新 值 在 字符 串 属性 定义 中 的 位 置 。 

从 内 部 机 制 来 说 ， 不 论 相 对 应 的 属性 是 什么 类 型 的 ，Instance 会 把 所 有 的 属性 值 存储 
成 双 精 度 浮 点 小 数 。 如 果 是 名 目 和 字符 串 属性 ， 则 只 需要 存储 相对 应 属性 在 属性 定义 的 索 
引 就 可 以 了 。 例 如 ， 名 目 属性 的 第 一 个 值 用 0. 0 表示 ,第 二 个 用 1.0 表示 ， 并 以 此 类 推 。 同 
样 方法 也 可 用 于 字符 串 属性 : addStringValue() 返 回 的 是 对 应 于 加 到 属性 定义 中 的 值 的 索引 。 

设 定好 字符 串 属 性 的 值 后 ，makeImstance() 会 将 一 个 指向 数据 集 的 参考 传送 给 新 生成 
的 实例 ， 从 而 使 该 实例 可 以 读 取 数据 的 属性 信息 。 在 Weka 中 ， 一 个 Instance 对 象 不 会 直 
接 存储 每 个 属性 的 类 型 ， 而 是 存储 一 个 指向 含有 相应 属性 信息 的 数据 集 的 一 个 参考 。 


第 15 章 RAAMBFI 381 





现在 回 到 updateData() — H. makelInstance() 返 回 了 新 的 实例 ， 它 的 类 值 就 已 经 设 定 完 
成 ， 且 该 实例 已 经 加 入 训练 数据 。 我 们 还 会 将 m_UpToDate 初始 化 ， 它 是 一 个 显示 训练 数 
据 已 经 发 生变 化 ， 且 预测 模型 因此 需要 更 新 的 旗 标 。 


15.1.3 classifyMessage() 


现在 让 我 们 来 看 看 MessageClassifier 如 何 处理 一 个 类 标签 未 知 的 消息 。ClassifyMessage() 
方法 首先 通过 确定 是 否 准备 好 训练 数据 ， 来 查看 一 个 分 类 器 是 否 已 经 构建 好 。 然 后 ， 再 查 
看 该 分 类 器 是 否 需 要 更 新 。 如 果 分 类 器 不 是 最 新 版 本 (因为 训练 数据 已 经 更 改 ) 它 必须 重 
新 建立 分 类 器 。 然 而 ， 在 做 这 项 工作 以 前 ， 必 须 用 StringToWordVector 过 滤器 将 数据 转换 
成 一 个 可 适用 于 学 习 的 格式 。 首 先 ， 我 们 用 setInputFormat() 将 一 个 指向 输入 数据 集 的 参考 
传递 给 该 过 滤器 ， 以 使 其 知道 待 输入 数据 的 格式 。 每 调用 一 次 setmputFormat() 方 法 ， 该 过 
滤器 就 初始 化 一 遍 ， 即 所 有 的 内 部 设置 都 重新 设置 。 下 一 步 ， 用 useFilter() 对 数据 进行 转 
换 。 这 个 来 自 于 Filter 类 的 通用 方法 将 一 个 过 滤器 应 用 于 一 个 数据 集 。 此 时 ， 因 为 String- 
ToWordVector 刚刚 被 初始 化 ， 所 以 它 会 从 训练 数据 集 计 算 一 个 字典 ， 并 用 该 字典 形成 一 个 
单词 向 量 。 从 useFilter() 方 法 返回 后 ， 所 有 该 过 滤器 的 内 部 设置 都 保持 不 变 直 到 再 一 次 调 
用 inputFormat() 令 其 重新 初始 化 。 这 使 得 在 无 需 更 新 过 滤器 的 内 部 设置 (在 这 种 情况 下 指 
字典 ) 的 条 件 下 过 滤 一 个 测试 实例 成 为 可 能 。 

一 旦 数据 被 过 滤 ， 该 程序 就 会 通过 将 训练 数据 传递 给 它 的 buildClassifier() 方 法 ， 重 新 
构建 分 类 器 ， 在 所 举 的 例子 中 就 是 JAS 决策 树 ， 然 后 将 m. UpToDate 设 为 true。 在 产生 一 个 
新 的 分 类 器 之 前 ， 用 buildClassifier() 方 法 彻底 初始 化 所 用 模型 的 内 部 设置 是 Weka 的 一 个 
重要 惯例 。 因 此 ， 我 们 没有 必要 在 调用 buildClassifier() 之 前 构建 一 个 新 的 J48 对 象 。 

在 确保 存储 在 m_Classifier 中 的 是 当前 最 新 模型 时 ， 我 们 可 以 着 手 对 消息 进行 分 类 。 在 
调用 makeInstance () 以 便 根 据 消息 生成 一 个 实例 对 象 之 前 ， 需 要 生成 一 个 新 的 Instances 对 象 
用 来 持 有 这 个 实例 ， 且 该 对 象 将 作为 一 个 可 变 参 数 传 给 makeImstance() 。 这 样 做 的 目的 是 使 
makelInstance () 不必 将 消息 文本 加 入 m. Data 中 的 字符 串 属性 。 和 否则 ， 当 一 个 新 消息 被 分 类 时 ， 
m_Data 对 象 的 尺寸 就 会 增 大 ， 这 显然 不 合适 ， 因 为 只 有 在 加 入 训练 实例 的 时 候 m_Data 才 应 
当 扩 大 。 因 此 ， 生 成 一 个 临时 的 Instances 对 象 ,， 一旦 它 所 持 有 的 实例 处 理 完毕 ， 就 将 其 删 
除 。 这 个 对 象 可 用 stringFreeStructure() 方 法 得 到 ， 该 方法 返回 一 个 含有 空 字 符 串 属性 的 m_ 
Data 对 象 的 副本 。 以 上 这 些 完 成 后 ，makeInstance() 方 法 才 会 被 调用 以 生成 所 要 的 新 实例 。 

测试 实例 在 分 类 之 前 也 必须 经 StringToWordVector 过 滤器 处 理 。 这 并 不 难 : input() 方 法 
将 实例 送 入 过 滤器 对 象 ， 经 过 转化 的 实例 可 通过 调用 output() 取得 。 然 后 ， 将 实例 传递 给 分 
类 器 的 classifyInstance() 方 法 ， 即 可 产生 一 个 预测 。 正 如 用 户 所 看 到 的 ， 预 测 是 作为 一 个 双 
精度 浮 点 小 数 编 人 代码 的 。 这 就 使 得 Weka 的 评估 模块 可 用 类 似 的 手段 来 处 理 类 别 预测 和 数 
值 预测 的 模型 。 对 于 类 别 化 预测 ， 正 如 上 面 所 举 的 例子 ，double 变量 的 值 就 是 所 预测 出 的 类 
值 的 索引 。 为 了 输出 对 应 于 这 个 类 值 的 字符 串 ， 该 程序 调用 了 数据 集 类 属性 的 value() 方 法 。 

至 少 有 一 种 方式 可 以 对 我 们 以 上 的 实现 做 出 改进 。 分 类 器 和 StringToWordVector ix YE 
器 可 以 用 11. 5 节 中 描述 过 的 FilterClassifier 元 学 习 器 合并 到 一 起 。 合 并 后 的 分 类 器 就 无 需 
调用 过 滤器 来 转换 数据 ， 可 直接 处 理 字符 串 属 性 。 我 们 没有 这 样 做 ， 因 为 我 们 想 演 示 过 滤 
器 是 如 何 通 过 编写 代码 的 方式 得 到 使 用 的 。 
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如 果 用 户 需 要 实现 一 个 Weka 所 没有 的 特殊 目的 的 学 习 算 法 ,或 者 用 户 正在 进行 机 器 
学 习 的 研究 并 且 想 试验 一 个 新 的 学 习 方 案 , 或 者 用 户 只 是 想 通 过 亲自 动手 编程 ， 了 解 更 多 
有 关 归 纳 算 法 的 内 部 运作 ， 那 么 本 节 接 下 来 用 一 个 简单 的 范例 演示 在 编写 分 类 器 时 ， 如 何 
充分 利用 Weka 的 类 的 层级 结构 ， 从 而 满足 用 户 的 需要 。 

Weka 包含 了 表 16-1 中 所 列 的 基本 的 、 主 要 用 于 教育 目的 的 学 习 方案 。 表 中 的 方案 对 
于 接受 命令 行 选 项 没有 特别 要 求 。 它 们 对 于 理解 分 类 器 的 内 部 运作 都 很 有 用 。 我 们 会 将 
weka.classifiers.trees.Id3 作为 一 个 例子 讨论 ， 该 方案 实现 了 4.3 节 中 的 ID3 决策 树 学 习 器 。 
聚 类 算法 以 及 关联 规则 学 习 器 等 其 他 学 习 方 案 将 用 类 似 的 方式 进行 组 织 。 


16. 1 一 个 分 类 器 范例 


图 16-1 给 出 了 weka.classifiers.trees.Id3 的 源 代码 ， 它 扩展 了 Classifier 类 ， 这 一 点 用 户 
可 以 从 下 一 页 后 面 的 图 中 看 到 。 无 论 是 用 于 预测 名 目 型 类 还 是 预测 数值 型 类 ， 每 个 Weka 
中 的 分 类 器 都 必须 扩展 Classifier 类 。 同 时 该 源 代码 还 实现 了 两 个 接口 : TechnicalInforma- 
tionHandler 和 Sourcable， 前 者 允许 实现 的 类 在 图 形 用 户 界面 中 展示 书目 参考 ， 后 者 允许 实 
现 的 类 提供 其 学 习 模型 的 源 代码 表述 。 


package weka.classifiers.trees; 


import weka.classifiers.Classifier; 
import weka.classifiers.Sourcable; 
import weka.core.Attribute; 

import weka.core.Capabilities; 
import weka.core.Instance; 

import weka.core.Instances; 


import weka.core.NoSupportForMissingValuesException; 
import weka.core.RevisionUtils; 

import weka.core.TechnicalInformation; 

import weka.core.TechnicalInformationHandler; 

import weka.core.Utils; 

import weka.core.Capabilities.Capability; 


import weka.core.TechnicalInformation.Field; 
import weka.core.TechnicallInformation.Type; 


import java.util.Enumeration; 


/[** 
* Class implementing an Id3 decision tree classifier. 
x 

public class Id3 extends Classifier 
implements TechnicalInformationHandler, Sourcable ( 


/** for serialization */ 
static final long serialVersionUID - -2693678647096322561L; 


/** The node's successors. */ 
private Id3[] m Successors; 





图 16-1 ID3 决策 树 学 习 器 的 源 代码 
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/** Attribute used for splitting. */ 
private Attribute m Attribute; 


/** Class value if node is leaf. */ 
private double m ClassValue; 


/** Class distribution if node is leaf. */ 
private double[] m Distribution; 


/** Class attribute of dataset. */ 
private Attribute m ClassAttribute; 


/** 
* Returns a string describing the classifier. 
* @return a description suitable for the GUI. 
*/ 

public String globalinfo() { 


return "Class for constructing an unpruned decision tree " 
* "based on the ID3 algorithm. Can only deal with " 
+ "nominal attributes. No missing values allowed. " 
+ "Empty leaves may result in unclassified instances. " 
+ "For more information see: \n\n" 
* getTechnicalInformation.toString(); 


) 


/** 
Returns an instance of a TechnicalInformation object, containing 
detailed information about the technical background of this class, 
e.g., paper reference or book this class is based on. 


(return the technical information about this class 
*/ 
public Technicalinformation getTechnicalInformation() { 
TechnicalInformation result; 


result = new TechnicallInformation(Type.ARTICLE); 
result.setValue(Field.AUTHOR, "R. Quinlan"); 
result.setValue(Field.YEAR, "1986"); 
result.setValue(Field.TITLE, "Induction of decision trees"); 
result.setValue(Field.JOURNAL, "Machine Learning"); 
result.setValue(Field.VOLUME, "1"); 
result.setValue(Field.NUMBER, "1"); 
result.setValue(Field.PAGES, "81-106"); 

return result; 


/** 
* Returns default capabilities of the classifier. 
* 
* @return the capabilities of this classifier 
*y 

public Capabilities getCapabilities() ( 
Capabilities result - super.getCapabilities(); 
result.disableA11(); 


// attributes 
result.enable(Capability.NOMINAL ATTRIBUTES); 


// class 
result.enable(Capability.NOMINAL CLASS); 
result.enable(Capability.MISSING CLASS, VALUES); 


// instances 
result.setMinimumNumberInstances (0); 


return result; 
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/** 
Builds Id3 decision tree classifier. 


Gparam data the training data 
@exception Exception if classifier can't be built successfully 
A 
public void buildClassifier(Instances data) throws Exception { 


// can classifier handle the data? 
getCapabilities().testWithFail(data); 


// remove instances with missing class 
data = new Instances (data); 
data.deleteWithMissingClass(); 

makeTree (data); 


) 


Method for building an Id3 tree. 


Gexception Exception if decision tree can't be built successfully 
/ 
private void makeTree(Instances data) throws Exception ( 


* 
* 
* @param data the training data 
* 
* 


// Check if no instances have reached this node. 
if (data.numInstances() -- 0) ( 
m Attribute - null; 
m ClassValue - Instance.missingValue(); 
m Distribution - new double[data.numClasses()]; 
return; 


// Compute attribute with maximum information gain. 
double[] infoGains - new double[data.numAttributes()]; 
Enumeration attEnum - data.enumerateAttributes(); 
while (attEnum.hasMoreElements()) ( 
Attribute att - (Attribute) attEnum.nextElement(); 
infoGains[att.index()] = computeInfoGain(data, att); 
) 


m Attribute - data.attribute(Utils.maxIndex(infoGains)); 


// Make leaf if information gain is zero. 
// Otherwise create successors. 
if (Utils.eq(infoGains[m Attribute.index()], 0)) ( 
m Attribute - null; 
m Distribution - new double[data.numClasses()]; 
Enumeration instEnum - data.enumerateInstances(); 
while (instEnum.hasMoreElements()) ( 
Instance inst - (Instance) instEnum.nextElement(); 
m Distribution[(int) inst.classValue() ]++; 
) 
Utils.normalize(m Distribution); 
m ClassValue - Utils.maxIndex(m Distribution); 
m ClassAttribute - data.classAttribute(); 
else ( 
Instances[] splitData = splitData(data, m Attribute); 
m Successors = new Id3(m_Attribute.numValues()]; 
for (int j = 0; j < m Attribute.numValues(); j++) { 
m Successors[j] = new Id3(); 
m Successors[j]l.makeTree(splitData[j]): 
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Classifies a given test instance using the decision tree. 


@param instance the instance to be classified 
Greturn the classification 
@throws NoSupportForMissingValuesException if instance has missing 
values 
*/ 
public double classifyInstance(Instance instance) 
throws NoSupportForMissinqValuesException { 


if (instance.hasMissingValue()) { 
throw new NoSupportForMissingValuesException("Id3: no missing values, 
+ "please."); 
} 
if (m Attribute == null) ( 
return m ClassValue; 
) else { 
return m Successors[(int) instance.value(m Attribute)]. 
classifyInstance(instance); 


Computes class distribution for instance using decision tree. 


@param instance the instance for which distribution is to be computed 
@return the class distribution for the given instance 
Gthrows NoSupportForMissingValuesException if instance 
has missing values 
a 
public double[] distributionForInstance(Instance instance) 
throws NoSupportForMissingValuesException ( 


if (instance.hasMissingValue()) ( 
throw new NoSupportForMissingValuesException("Id3: no missing values, 
* "please."); 
} 
if (m Attribute == null) { 
return m Distribution; 
) else ( 
return m Successors[(int) instance.value(m Attribute)]. 
distributionForInstance (instance); 


) 


/** 


* Prints the decision tree using the private toString method from below. 
* 


* @return a textual description of the classifier 
*/ 
public String toString() ( 


if ((m Distribution -- null) && (m Successors -- null)) ( 
return "Id3: No model built yet."; 
} 
return "Id3\n\n" + toString(0); 
} 


* 


/ 
Computes information gain for an attribute. 


@param data the data for which info gain is to be computed 
@param att the attribute 

@return the information gain for the given attribute and data 
@throws Exception if computation fails 


+ + + X tt OF OF 


~ 


private double computeInfoGain(Instances data, Attribute att) 
throws Exception { 





图 16-1 (4%) 


386 第 三 部 分 Weka 数据 挖掘 平台 





double infoGain = computeEntropy (data); 
Instances[] splitData = splitData(data, att); 
for (int j = 0; j < att.numValues(); j++) { 

if (splitData[j].numInstances() » O) ( 

infoGain -= ((double) splitData[j].numInstances() / 
(double) data.numInstances()) * 
computeEntropy (splitData[jl):; 

) 
} 
return infoGain; 


} 


/** 


* Computes the entropy of a dataset. 


@param data the data for which entropy is to be computed 
Greturn the entropy of the data's class distribution 
Gthrows Exception if computation fails 
*/ 
private double computeEntropy(Instances data) throws Exception { 


double [] classCounts - new double[data.numClasses()]; 
Enumeration instEnum - data.enumerateInstances(); 
while (instEnum.hasMoreElements()) ( 
Instance inst - (Instance) instEnum.nextElement(); 
classCounts[(int) inst.classValue()]++; 
) 
double entropy - 0; 
for (int j = 0; j < data.numClasses(); j++) { 
if (classCounts[j] > 0) ( 
entropy -= classCounts[j] * Utils.log2(classCounts[j]); 
) 
) 
entropy /- (double) data.numInstances(); 
return entropy + Utils.log2(data.numInstances()); 


* 


Splits a dataset according to the values of a nominal attribute. 


Gparam data the data which is to be split 
Gparam att the attribute to be used for splitting 
@return the sets of instances produced by the split 


+ te FF OF 


~ 


private Instances[] splitData(Instances data, Attribute att) ( 


Instances[] splitData - new Instances[att.numValues()]; 

for (int j = 0; j < att.numValues(); j++) { 
splitData[j] = new Instances(data, data.numInstances()); 

) 

Enumeration instEnum - data.enumerateInstances(); 

while (instEnum.hasMoreElements()) ( 
Instance inst - (Instance) instEnum.nextElement(); 
splitData[(int) inst.value(att)].add(inst); 

) 

for (int i = 0; i < splitData.length; i++) { 
splitData[i].compactify(); 

) 

return splitData; 


/** 


Outputs a tree at a certain level. 


@param level the level at which the tree is to be printed 
@return the tree as string at the given level 
v 
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private String toString(int level) ( 
StringBuffer text = new StringBuffer(); 


if (m Attribute == null) { 
if (Instance.isMissingValue(m_ClassValue)) { 
text.append(": null"); 
} else { 
text.append(": " + m ClassAttribute.value((int) m ClassValue)); 
) 
) else ( 
for (int j = 0; j < m Attribute.numValues(); j++) ( 
text.append("\n"); 
for (int i = 0; i < level; i++) { 
text.append("| "); 
} 
text.append(m_Attribute.name() + “ = " + m_Attribute.value(j)); 
text .append(m_Successors[j].toString(level + 1)); 
} 
} 


return text.toString(); 


* 


Adds this tree recursively to the buffer. 


@param id the unqiue id for the method 

Gparam buffer the buffer to add the source code to 
Greturn the last ID being used 

Gthrows Exception if something goes wrong 


* 
* 
* 
* 
* 
* 
* 
* 


protected int toSource(int id, StringBuffer buffer) throws Exception ( 


m3 


int result; 

int 3 

int newID; 
StringBuffer[] subBuffers; 


buffer.append("\n"); 
buffer.append(" protected static double node" 
+ id + "(Object[] i) {\n"); 


// leaf? 
if (m Attribute -- null) ( 
result - id; 
if (Double.isNaN(m ClassValue)) ( 
buffer.append(" return Double.NaN;"); 
) else ( 
buffer.append(" return " + m ClassValue + ";"); 
} 
if (m_ClassAttribute != null) { 
buffer.append(" // " + m ClassAttribute.value((int) m ClassValue)); 
) 
buffer.append("\n"); 
buffer.append(" }\n"); 


} else { 
buffer .append (" checkMissing(i, " 
+ m Attribute.index() + ");\n\n"); 
buffer.append(" // ”+ m Attribute.name() + "\n"); 


// subtree calls . 

subBuffers = new StringBuffer[m Attribute.numValues()]; 

newID - id; 

for (i = 0; i « m Attribute.numValues(); i++) { 
newID++; 
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buffer.append(" "y; 
if (i > 0) { 
buffer.append("else "); 
) 
buffer.append("if (((String) i[" * m Attribute.index() 
+ ")).equals(\"" + m Attribute.value(i) + "\"))\n"); 
buffer.append(" return node" + newID + "(i);\n"); 


subBuffers[i] = new StringBuffer(); 
newID = m Successors[i].toSource(newID, subBuffers[i]); 
) 
buffer.append(" else\n"); 
buffer.append(" throw new IllegalArgumentException 
(\"Value '\" + if" + m Attribute.index() + "] 
+ \"' is not allowed!\");\n"); 
buffer.append("  }\n"); 


// output subtree code 

for (i = 0; i < m_Attribute.numValues(); i++) { 
buffer.append(subBuffers[i].toString()); 

} 

subBuffers = null; 

result = newID; 


} 


return result; 


} 


* 


/ 
Returns a string that describes the classifier as source. The 
classifier will be contained in a class with the given name (there 
may be auxiliary classes), 

and will contain a method with the signature: 

<pre><code> 

public static double classify(Object[] i); 

</code></pre> 

where the array <code>i</code> contains elements that are either 
Double, String, with missing values represented as null. The 
generated code is public domain and comes with no warranty. <br/> 
Note: works only if class attribute is the last attribute in the 
dataset. 

@param className the name that should be given to the source class. 
@return the object source described by a string 

@throws Exception if the source can't be computed 


* 
* 
* 
* 
* 
* 
* 
* 
* 
* 
* 
* 
* 
* 
* 
* 
* 


~ 


public String toSource(String className) throws Exception { 
StringBuffer result; 
int id; 


result = new StringBuffer(); 


result.append("class " + className + " {\n"); 
result.append(" private static void checkMissing (Object [] 
i, int index) {\n"); 
result.append(" if (i[index] == null)\n"); 
result.append(" throw new IllegalArgumentException (\"Null values " 
+ "are not allowed! V"); Mn"); 
result.append("  }\n\n"); 
result.append(" public static double classify(Object[] i) {\n"); 
id = 0; 
result.append(" return node" + id + "(i);\n"); 
result.append(" }\n"j; 
toSource(id, result); 
result .append("}\n"); 
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return result.toString(); 


/[** 
* Returns the revision string. 
* 


* @return the revision 
a7 
public String getRevision() { 
return RevisionUtils.extract("$Revision: 6404 $"); 
} 


/** 
* Main method. 


* 
* @param args the options for the classifier 
*/ 
public static void main(String[] args) ( 
runClassifier(new Id3(), args); 
) 
) 





图 16-1 (5) 


weka.classifiers.trees.Id3 方案 中 的 第 一 个 方法 是 globalInfo() : 我 们 在 进入 到 更 有 趣 的 部 
分 之 前 先 谈 谈 这 个 方法 。 当 这 个 方法 在 Weka 的 图 形 用 户 界面 上 被 选中 时 ， 该 方法 只 是 简 
单 地 返回 一 个 显示 在 Weka 图 形 用 户 界面 上 的 字符 串 。 该 字符 串 所 包含 的 部 分 信息 是 由 第 
二 个 方法 getTechnicalInformation() 得 到 的 ， 该 方法 为 ID3 算法 设计 了 书目 参考 的 格式 。 第 
三 个 方法 getCapablities() 返 回 了 Id3 可 以 处 理 数据 的 特征 信息 ， 也 就 是 名 目 属性 以 及 一 个 
名 目 型 类 。 实 际 上 ， 该 方法 可 以 处 理 缺 失 的 类 标 值 以 及 没有 包含 实例 的 数据 (尽管 没有 包 
含 实例 的 数据 并 不 会 产生 一 个 有 用 的 模型 ) 。16. 2 节 中 将 给 出 性 能 的 描述 。 

表 16-1 Weka 中 的 简单 学 习 方案 ' 
方案 描述 本 书 章 节 





weka.classifiers.bayes.NaiveBayesSimple 概率 学 习 器 4.2 
weka. classifiers. trees. Id3 决策 树 学 习 器 4.3 
weka.classifiers.rules.Prism 规则 学 习 器 4.4 
weka.classifiers. lazy. IB1 基于 实例 的 学 习 器 4.7 


16.1.1  buildClassifier() 


buildClassifier() 方 法 根据 训练 数据 集 构建 一 个 分 类 器 。 这 种 情况 下 ， 该 方法 首先 检查 
数据 的 特征 是 否 符合 143 的 性 能 。 因 为 ID3 算法 无 法 处 理 数 值 型 属性 或 者 缺失 属性 值 ， 训 
练 数据 的 这 些 特征 就 会 导致 Capabilities 类 抛 出 一 个 异常 。 然 后 ， 它 生成 一 个 训练 集 的 副本 
(以 避免 改变 原始 数据 ) ， 并 调用 weka.core.Instances 中 的 一 个 方法 来 删除 所 有 含 缺失 类 值 
的 实例 ， 因 为 这 些 实例 在 训练 过 程 中 不 起 作用 。 最 后 ， 它 调用 makeTree() ， 该 方法 实际 上 
通过 递归 方式 产生 所 有 附加 到 根 结 点 上 的 子 树 ， 从 而 生成 一 个 决策 树 。 


16.1.2 makeTree() 


在 makeTree() 中 ， 第 一 步 是 检查 数据 集 是 否 为 空 。 如 果 是 ， 通 过 将 m Attribute 设 为 空 
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生成 一 个 叶子 结 点 。 为 该 叶子 结 点 指定 的 类 值 m ClassValue 设 定 为 缺失 ， 且 m. Distribution 
中 为 数据 集中 的 每 个 类 所 估计 的 概率 皆 初 始 化 为 0。 如 果 训 练 实例 已 准备 好 ，makeTree() 
会 找 出 令 这 些 实例 产生 最 大 信息 增益 的 属性 。 它 首先 生成 一 个 数据 集 属性 的 Java 枚 举 。 如 
果 类 属性 的 索引 已 经 设 定 ， 如 正在 讨论 的 这 个 数据 集 设 定 一 样 ， 该 类 属性 会 被 自动 排除 在 
该 枚 举 之 外 。 

在 枚 举 的 内 部 ， 每 个 属性 的 信息 增益 都 由 computelnfoGain () 计算 出 来 并 存储 在 一 个 数 
组 中 。 我 们 以 后 会 重新 讲 这 个 方法 。weka.core.Attribute 中 的 index() 方 法 可 返回 数据 集中 属 
性 的 索引 ， 它 可 为 刚刚 提 到 的 数组 编制 索引 。 一 旦 完成 了 枚 举 ， 具 有 最 大 信息 增益 的 属性 
就 会 存储 在 实例 变量 m Attribute 中 。Weka.core.Utils 中 的 maxIndex() 方 法 返回 一 个 由 整数 
或 双 精 度 浮 点 小 数 构成 的 数组 中 最 大 值 的 索引 (如果 具有 最 大 值 的 组 元 不 止 一 个 ， 那 么 只 
返回 第 一 个 )。 该 属性 的 索引 会 传 给 weka.core.Instances 中 的 attribute() 方法 ， 该 方法 返回 
与 索引 相对 应 的 属性 。 

用 户 也 许 在 想 ， 数 组 中 与 类 属性 相对 应 的 那个 值 域 怎么 样 了 ? 这 个 不 必 担心 ， 因 为 
Java 会 自动 将 数组 中 所 有 组 元 初始 化 为 整数 0， 而 信息 增益 总 是 大 于 或 等 于 0。 如 果 最 大 
信息 增益 是 0，makeTree() 会 生成 一 个 叶子 结 点 。 在 这 种 情况 下 ，makeTree() 会 设 为 空 ， 
H makeTree() 会 同时 计算 类 概率 的 分 布 以 及 具有 最 大 概率 的 类 (weka.core.Utils 中 的 nor- 
malize() 方 法 会 将 一 个 双 精 度 浮 点 小 数 数组 规范 化 使 其 组 员 相 加 总 和 为 1 ) 。 

当 它 产生 一 个 已 指定 类 值 的 叶子 结 点 时 ，makeTree() 将 类 属性 存储 到 m_ClassAttribute 
中 。 这 是 因为 用 来 输出 决策 树 的 方法 需要 读 取 该 类 值 以 便 显 示 类 标签 。 

如 果 发 现 了 一 个 具有 非 零 信息 增益 的 属性 ，makeTree () 会 根据 该 属性 的 值 分 割 数 据 
集 ， 并 以 递归 的 方式 为 每 个 新 产生 的 数据 集 构 建 子 树 。 该 方法 调用 另 一 个 方法 splitData() 
进行 分 割 。 这 样 就 会 生成 与 属性 值 一 样 多 个 空 的 数据 集 ， 且 把 这 些 数据 集 存储 到 一 个 数组 
中 (将 每 个 数据 集 的 初始 容量 设 定 为 原始 数据 集中 所 含 实例 的 数量 ) ， 然 后 在 原始 数据 集 
中 将 每 个 实例 依次 迭代 ， 并 在 新 数据 集中 根据 相对 应 的 属性 值 为 这 些 实例 开辟 空间 。 然 后 
压缩 Instances 对 象 以 减少 占用 的 存储 器 。 返 回 到 makeTree() 后 ， 所 得 到 的 数据 集 数 组 用 于 
构建 子 树 。 该 方法 会 生成 一 个 由 Id3 对 象 构成 的 数组 ， 数 组 中 的 每 个 对 象 对 应 着 一 个 属性 
值 ， 并 将 相对 应 的 数据 集 传 给 makeTree() ， 从 而 在 每 个 对 象 上 调用 该 方法 。 


16.1.3 computelnfoGain() 


现在 回 到 computeInfoGain() ， 与 一 个 属性 和 一 个 数据 集 相 关联 的 信息 增益 是 用 4.3 节 
中 介绍 过 的 方程 式 的 一 个 直接 实现 计算 出 来 的 。 首 先 计 算数 据 集 的 粹 ， 然 后 用 splitData() 
将 数据 集 分 割 成 子 集 ， 并 在 每 个 子 集 上 调用 computeEntropy() 。 最 后 ， 将 前 面 计 算出 来 的 
WS Jes ED A SR AY BE SA A AE 〈( 即 信息 增益 ) 返回 。computeEntropy() 
方法 使 用 weka.core. Utils 中 的 log2() 方 法 得 出 一 个 数 的 对 数 (以 2 为 基数 ) 。 


16.1.4 classifyInstance() 


看 过 了 ID3 如 何 构建 决策 树 ， 我 们 再 来 看 看 ID3 如 何 利 用 树 结构 来 预测 类 值 和 概率 。 
每 一 个 分 类 器 都 必须 实现 classifyInstance() 方 法 或 distributionForInstance () 方 法 (或 两 个 方 
法 都 实现 ) 。Classifier 超 类 含有 这 两 种 方法 的 默认 实现 。classifyInstance() 的 默认 实现 调用 
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distributionForInstance() 。 如 果 类 是 名 目 型 的 ，classifyInstance() 会 把 具有 最 大 概率 的 属性 预 
测 为 类 ; 否则 ， 如 果 distributionForInstance () 返回 的 所 有 概率 都 是 0， 则 classifyInstance() 返 
回 一 个 缺失 值 。 如 果 类 是 数值 型 的 ， 则 distributionForInstance() 必须 返回 有 数值 预测 的 单一 
组 元 数组 ， 该 数组 也 就 是 classifyInstance () 要 提取 并 返回 的 。 最 后 ，distributionForInstance () 
的 默认 实现 反 过 来 把 从 classifyInstance () 中 得 来 的 预测 包装 成 一 个 单一 组 元 数组 。 如 果 类 
是 名 目 型 的 ，distributionForInstance () 将 概率 1 指定 给 classifyInstance () 预测 出 的 类 属性 ， 
把 概率 0 指定 给 其 他 属性 。 如 果 classifyInstance () 返回 一 个 缺失 值 ， 所 有 属性 的 概率 都 设 
为 0。 为 了 让 用 户 更 好 地 了 解 这 些 方 法 所 做 的 工作 ，weka.classifiers.trees.Id3 类 重新 编写 了 
这 两 个 方法 。 

我 们 先 来 看 看 针对 一 个 给 定 实例 预测 类 值 的 classifyInstance()。 上 一 节 曾 经 讲 过 , 5j 
名 目 属性 值 一 样 ， 名 目 型 类 值 是 以 double 变量 的 形式 编码 及 存储 的 ， 表 示 值 的 名 字 在 属性 
声明 中 的 索引 。 这 种 更 简洁 有 效 的 面向 对 象 的 处 理 方式 可 加 快运 行 速 度 。 在 ID3 的 实现 
rP, classifyInstance() 首先 查看 待 分 类 的 实例 中 是 否 有 缺失 值 。 如 果 有 ， 就 抛 出 一 个 异常 ; 
否则 ， 它 就 以 递归 的 方式 ， 根 据 待 分 类 实例 的 属性 值 ， 沿 着 树 自 上 而 下 ， 直 至 到 达 某 个 末 
端 叶子 结 点 。 然 后 ， 它 返回 存储 在 该 叶子 结 点 的 类 值 m_ClassValue。 注 意 返回 的 也 可 能 是 
缺失 值 ， 如 果 是 缺失 值 ， 该 实例 将 成 为 未 被 分 类 的 实例 。distributionForInstance() 方 法 的 工 
作 方 式 与 此 完全 一 样 ， 它 返回 存储 于 m. Distribution 中 的 概率 分 布 。 

大 多 数 机 器 学 习 模 型 ， 特 别 是 决策 树 ， 大 致 上 全 面 反映 了 数据 本 身 的 结构 。 因 此 每 个 
Weka 分 类 器 ， 与 许多 其 他 Java 对 和 象 一 样 ， 实 现 toString() 方 法 从 而 以 字符 串 变 量 的 形式 生 
成 一 个 它 自身 的 文本 表述 。Id3 的 toString () 方 法 输出 一 个 与 J48 格式 大 致 相同 的 决策 树 
( 见 图 11-5) 。 它 通过 读 取 存储 于 结 点 上 的 属性 信息 ， 以 递归 的 方式 将 树 的 结构 输入 到 一 
个 字符 串 变 量 。 它 使 用 weka.core. Attribute 中 的 name() 和 value() 方法 得 到 每 个 属性 的 名 字 
和 值 。 不 含 类 值 的 空 未 端 叶子 结 点 由 字符 串 null 标示 出 来 。 


16. 1.5 toSource() 


Weka.classifiers.trees.Id3 实现 了 Sourcable 接口 。 实 现 了 该 接口 的 分 类 器 可 以 生成 学 习 
模型 的 源 代码 表述 ， 该 表述 可 以 使 用 -z 选项 (0514.3 节 ， 表 14. 1) 在 命令 行 输出 。Weka 
产生 了 一 个 Java% (类 名 由 -z 选项 给 出 ) ， 该 类 可 以 独立 于 Weka 的 类 进行 预测 。 输 出 也 
是 一 个 类 ， 名 为 WekaWrapper， 它 扩展 了 Classifier 并 且 利 用 命名 的 类 进行 预测 。 该 类 可 以 
用 于 检测 Weka 框架 中 的 源 代 码 表 述 ， 即 它 可 以 从 命令 行 或 者 从 Explorer 界面 运行 。 由 于 
实际 的 分 类 器 是 硬 编码 的 ， 所 以 WekaWrapper 的 buildClassifier 方法 仅仅 只 检查 数据 的 性 能 
而 不 做 其 他 事情 。 

图 16-2 给 出 了 weka.classifiers.trees.Id3 运行 在 天 气 数 据 的 名 目 属性 版 本 上 时 产生 的 源 
代码 。Id3Weather 的 名 字 由 -z 参数 给 出 ， 图 16-2a 中 展示 了 一 个 该 名 字 的 类 。 这 些 方法 都 
是 静态 的 ， 意 味 着 不 需要 实例 化 143Weather 对 象 它 们 也 是 可 用 的 。 第 一 个 方法 叫做 classi- 
f， 它 的 参数 为 一 个 对 象 数组 ， 用 于 为 待 分 类 实例 给 定 属性 值 。 学 习 得 到 的 每 个 ID3 树 结 
点 都 将 通过 一 个 静态 方法 表示 为 源 代码 形式 。classify 方法 将 待 分 类 实例 传递 给 树 根 的 相应 方 
法 node() 。node() 方 法 相当 于 对 outlook 属性 的 一 个 测试 。 该 结 点 为 非 叶 子 结 点 ， 因 而 调用 一 
个 结 点 表示 其 中 一 个 子 树 ， 具 体 哪 个 子 树 依 据 待 分 类 实例 的 outlook 属性 值 而 定 。 继 续 以 该 
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方式 处 理 测试 实例 直到 叶子 结 点 的 相关 方法 得 到 了 调用 ， 这 时 将 返回 最 终 的 分 类 器 。 


package weka.classifiers; 


class Id3Weather ( 
private static void checkMissing(Object[] i, int index) ( 
if (i[index] -- null) 
throw new IllegalArgumentException("Null values are not allowed!"); 


) 


public static double classify(Object[] i) ( 
return node0 (i); 


} 


protected static double noqe0 (Object[] i) { 
checkMissing(i, 0); 


// outlook 
if (((String) i[0]).equals("sunny")) 
return nodel(i); 
else if (((String) i[0]).equals("overcast")) 
return node4(i); 
else if (((String) i[0]).equals("rainy")) 
return node5(i); 
else 
throw new IllegalArgumentException("Value '" + i[0] 
+ "' is not allowed!"); 


) 


protected static double nodel(Object[] i) ( 
checkMissing(i, 2); 


// humidity 
if (((String) i[2]).equals("high")) 

return node2(i); 
else if (((String) i[2]).equals("normal")) 

return node3(i); 
else 

throw new IllegalArgumentException("Value '" + i[2] 

* "' is not allowed!"); 


) 


protected static double node2(Object[] 
return 1.0; // no 
} 


protected static double node3 (Object [] 
return 0.0; // yes 
} 


protected static double node4 (Object [] 
return 0.0; // yes 


protected static double node5 (Object[] 
checkMissing(i, 3); 


// windy 
if (((String) i[3]) .equals ("TRUE") ) 

return node6 (i); 
else if (((String) i[3]).equals("FALSE")) 

return node7(i); 
else 

throw new IllegalArgumentException("Value '" + i[3] 

+ "' is not allowed!"); 


J 
protected static double node6(Object[] i) ( 
return 1.0; // no 


protected static double node7(Object[] i) ( 
return 0.0; // yes 





a) Id3Weather 类 
图 16-2  weka.classifiers.trees.Id3 在 天 气 数 据 上 产生 的 源 代 码 
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package weka.classifiers; 


import weka.core.Attribute; 

import weka.core.Capabilities; 

import weka.core.Capabilities.Capability; 
import weka.core.Instance; 

import weka.core.Instances; 

import weka.core.RevisionUtils; 

import weka.classifiers.Classifier; 


public class WekaWrapper 
extends Classifier { 


/** 
* Returns only the toString() method. 
* 
* @return a string describing the classifier 
+y 
public String globalInfo() { 
return toString(); 


) 


/** 
* Returns the capabilities of this classifier. 
* 
* @return the capabilities 
*/ 
public Capabilities getCapabilities() ( 
weka.core.Capabilities result - new weka.core.Capabilities(this); 


result.enable(weka.core.Capabilities.Capability.NOMINAL ATTRIBUTES); 
result.enable(weka.core.Capabilities.Capability.NOMINAL CLASS); 
result.enable(weka.core.Capabilities.Capability.MISSING CLASS VALUES); 


result.setMinimumNumberInstances (0); 


return result; 


) 


/** 
* only checks the data against its capabilities. 
* 
* @param i the training data 
*/ 

public void buildClassifier(Instances i) throws Exception { 
// can classifier handle the data? 
getCapabilities().testWithFail(i); 

) 


/** 
* Classifies the given instance. 
* 
* @param i the instance to classify 
* @return the classification result 
*f 
public double classifyInstance(Instance i) throws Exception { 
Object[] s = new Object[i.numAttributes()]; 
for (int j = 0; j « s.length; j++) ( 
“if (!i-isMissing(j)) { 
if (i.attribute(j) .isNominal () ) 
S[j] = new String(i.stringValue(j)); 
else if (i.attribute(j) .isNumeric() ) 
s[j] = new Double(i.value(j)); 


} 


// set class value to missing 
s[i.classIndex()] = null; 


return Id3Weather.classify(s) ; 





b) WekaWrapper2& 
图 16-2 (2) 
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/** 
* Returns the revision string. 
* 


* (return the revision 
wy 
public String getRevision() { 
return RevisionUtils.extract("1.0"); 


/** 
* Returns only the classnames and what classifier it is based on. 
* 


* @return a short description 
* 


public String toString() ( 
return "Auto-generated classifier wrapper, based on 
weka.classifiers.trees.Id3 (generated with Weka 3.6.2).\n" + 
this.getClass().getName() + "/Id3Weather"; 
} 


* Runs the classfier from commandline. 
* 


* @param args the commandline arguments 
wy 

public static void main(String args[]) { 
runClassifier(new WekaWrapper(), args); 





图 16-2 (4) 


图 16-2b 展示 了 使 用 Id3 Weather 的 WekaWrapper 类 。 其 classifyInstance 方法 创建 
一 个 对 象 数组 连接 到 I03 Weather 中 的 classify 方法 进行 传递 。 测 试 实例 的 属性 值 复制 到 数 
组 中 ， 继 而 或 者 映射 到 字符 串 对 象 (名 目 型 值 ) 或 者 映射 到 双 精 度 型 对 象 中 (数值 型 
值 ) 。 若 测试 实例 中 属性 值 缺 失 ， 则 其 对 象 数组 中 的 相应 条 目 将 设置 为 null。 


16.1.6 main() 


weka.classifiers.tree.Id3 中 的 etRevision() 方法 是 可 选 的 ， 并 且 只 简单 返回 一 个 版 本 标 
识 。 除 了 该 方法 以 外 ，weka.classifiers.tree.Id3 中 唯一 还 没有 描述 过 的 方法 就 是 main() ， 每 
当 由 命令 行 执行 一 个 类 时 ， 该 方法 都 会 被 调用 。 正 如 用 户 看 到 的 一 样 ， 该 方法 很 简单 : 它 
用 123 的 新 实例 及 所 给 命令 行 选项 从 其 超 类 (Classifier) 调用 runClassifier() 方 法 。runClas- 
sifier() 告诉 Weka 的 Evaluation 类 用 给 定 的 命令 行 选项 评估 分 类 器 并 输出 所 得 到 的 字符 串 。 
完成 此 项 任务 的 单行 表达 式 就 包含 在 一 个 try- catch 语句 中 ， 该 语句 能 捕获 各 种 各 样 由 
Weka 例 程 或 其 他 Java 方法 抛 出 的 异常 。 

weka.classifiers. Evaluation 中 的 evaluation () 方 法 解释 了 14.3 节 中 讨论 过 的 ， 可 适用 于 
任何 学 习 方 案 的 通用 命令 行 选 项 及 相应 的 作用 。 例 如 ， 它 可 接受 训练 文件 名 字 的 -t 选项 ， 
并 载 人 相对 应 的 数据 集 。 如 果 没 有 测试 文件 ， 它 就 进行 交叉 验证 ， 方 式 是 生成 一 个 分 类 
器 ， 并 在 训练 数据 的 不 同 子 集 上 重复 调用 buildClassifier() , classifyInstance() 和 distribution- 
Forlnstance() 。 除 非 用 户 设 定 了 相应 的 命令 行 选项 从 而 阻止 模型 的 输出 ， 否 则 它 还 会 调用 
toString() 方 法 输出 由 整个 训练 数据 集 生成 的 模型 。 

如 果 某 个 学 习 方 案 需 要 解释 如 剪 枝 参数 这 样 的 具体 选项 怎么 办 ? 这 可 由 weka.core 中 
的 OptionHandler 接口 来 解决 。 实 现 该 接口 的 分 类 器 有 三 个 方法 : listOptions() 、setOptions() 
和 getOptions() 。 它 们 分 别 用 来 列 出 所 有 针对 该 分 类 器 的 选项 ， 设 定 其 中 某 些 选项 ， 并 取得 目 
前 已 设 定 的 选项 。 如 果 一 个 分 类 器 实现 了 OptionHandler 接口 ，Evaluation 类 中 的 evaluation () 方 
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法 会 自动 调用 这 些 方 法 。 处 理 完 通用 选项 后 ，evaluation() 会 调用 setOption() 来 处 理 余下 的 
选项 ， 然 后 利用 buildClassifier() 产生 一 个 新 的 分 类 器 。 输 出 所 产生 的 分 类 器 ，evaluation () 
会 用 getOptions() 输出 一 列 目 前 已 设 定 的 选项 。 在 weka.classifiers.rules.OneR 的 源 代 码 中 可 
找到 如 何 实现 这 些 方法 的 简单 范例 。 

OptionHandler 使 得 在 命令 行 中 设 定 选项 成 为 可 能 。 要 在 图 形 用 户 界面 中 设 定 这 些 选 
项 ，Weka 使 用 的 是 JavaBeans 的 架构 。 实 施 该 构架 所 要 做 的 全 部 工作 就 是 为 一 个 类 中 所 用 
到 的 每 个 参数 都 提供 set... OK get... () 方 法 。 比 方 说 ， 方 法 setPruningParameter() 和 get- 
PruningParameter() 对 于 一 个 剪 枝 参 数 来 说 就 是 必须 的 。 还 有 一 个 方法 也 必 不 可 少 ，prun- 
ingParameterTipText() 返回 的 是 显示 在 图 形 用 户 界面 上 的 对 该 参数 的 一 个 描述 。 此 处 依然 以 
weka.classifiers.rules.OneR 为 例 。 

一 些 分 类 器 可 在 新 的 训练 实例 陆续 到 达 时 进行 递增 更 新 ， 并 且 不 需要 在 同一 批 中 处 理 
全 部 数据 。 在 Weka 中 ， 递 增 分 类 器 必须 实现 weka. classifiers 中 的 UpdateableClassifier 接口 。 
该 接口 只 声明 了 一 个 名 为 updateClassifier() 的 方法 ， 该 方法 只 接受 一 个 单独 的 训练 实例 作为 
它 的 可 变 参 数 。 要 参考 一 个 如 何 使 用 该 接口 的 例子 ， 见 weka.classifiers.lazy.IBk 的 源 代 码 。 

如 果 一 个 分 类 器 能 运用 实例 的 权 ， 它 必须 实现 weka.core 中 的 WeightedInstancesHandler() 
接口 。 这 样 其 他 的 算法 ， 比 方 说 那些 用 于 提升 的 算法 ， 就 可 对 该 属性 加 以 利用 。 

在 weka.core 中 还 有 很 多 其 他 对 于 分 类 器 来 说 很 有 用 的 接口 ， 例 如 ，randomizable、 
summarizable 、drawable 和 graphable 这 些 用 于 分 类 器 的 接口 。 有 关 接 口 的 更 多 信息 ， 见 we- 
ka.core 中 的 类 Javadoc, 


16.2 与 实现 分 类 器 有 关 的 惯例 


在 实现 Weka 中 的 分 类 器 时 ， 有 一 些 惯例 用 户 必须 遵守 ; 否则 ， 程 序 会 出 错 。 比 方 说 ， 
在 评估 分 类 器 时 ，Weka 的 评估 模块 可 能 会 无 法 恰当 地 计算 它 的 统计 数据 。CheckClassifier 
类 尽管 不 能 捕获 所 有 的 问题 ， 但 依然 可 用 来 检查 一 个 分 类 器 的 基本 行为 。 

第 一 个 惯例 前 面 已 经 提 到 过 ， 当 一 个 分 类 器 的 buildClassifier() 方 法 被 调用 时 ， 必 须 令 
模型 重新 复位 。 类 CheckClassifier 进行 测试 ， 确 保 模 型 的 确 被 复位 了 。 当 buildClassifier() 
在 某 个 数据 集 上 被 调用 时 ， 无 论 该 分 类 器 以 前 已 经 在 同一 个 或 其 他 的 数据 集 上 被 调用 过 多 
少 次 ， 所 得 到 的 结果 必须 是 一 样 的 。 然 而 ， 一 些 实例 变量 是 与 某 些 只 适用 于 具体 方案 的 选 
项 相对 应 的 ，buildClassifier() 方 法 绝对 不 可 以 将 这 些 变量 复位 ， 因 为 这 些 变量 的 值 一 旦 被 
设 定 ， 它 们 在 多 次 调用 buildClassifier() 的 过 程 中 必须 保持 不 变 。 还 有 ， 调 用 buildClassifier 
() 绝 对 不 可 以 改动 输入 数据 。 

另外 两 个 惯例 以 前 也 提 到 过 。 一 个 是 当 某 个 分 类 器 无 法 做 出 预测 时 ， 它 的 classifyIn- 
stance() 方 法 必须 返回 Instance. missingValue(), HEA distributionForInstance() 方 法 必须 针 
对 所 有 类 属性 都 返回 0 概率 。 图 16-1 中 的 ID3 实现 就 是 这 么 做 的 。 另 外 一 个 惯例 是 ， 对 于 
用 做 数值 预测 的 分 类 器 来 说 ， 它 的 classifyInstance () 返回 分 类 器 所 预测 出 的 数值 型 类 值 。 
还 有 一 些 分 类 器 可 以 对 名 目 型 的 类 和 类 概率 ， 以 及 数值 型 的 类 值 做 出 预测 ^ weka. classifi- 
ers.lazy.IBk 就 是 一 个 例子 。 这 些 分 类 器 实现 了 distributionForInstance() 方 法 ， 如 果 类 是 数值 
型 的 ， 它 会 返回 一 个 大 小 为 1 的 数组 ， 其 唯一 组 元 就 含有 所 预测 的 数值 型 值 。 

另外 一 个 惯例 虽然 并 非 不 可 或 缺 ， 但 不 管 怎么 说 都 是 有 益 的 ， 即 每 个 分 类 器 都 实现 一 
个 toString() 方 法 ， 用 于 输出 一 个 它 自身 的 文本 描述 。 
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能 力 


本 书 在 本 章 结尾 进一步 讲解 “能 力 ” 的 概念 。 正 如 前 面 提 到 的 一 样 ， 性 能 允许 一 个 学 
习 方案 表示 它 可 以 处 理 的 数据 特征 。 当 用 户 按 下 Capabilities 按钮 时 ， 这 些 信 息 已 经 展示 在 
对 象 编 辑 器 中 。 同 时 在 当前 数据 不 符合 其 规定 性 能 时 ， 它 还 能 相应 阻止 Explorer 界面 中 方 
案 的 应 用 程序 。 

为 了 减轻 Weka 新 手 的 编程 负担 ， 几 种 主要 学 习 方 案 (Classifier, AbstractClusterer , 
AbstractAssociator) 的 超 类 默认 取消 了 所 有 的 性 能 约束 。 这 就 使 得 程序 员 可 以 集中 精力 在 
实现 学 习 功 能 的 主要 任务 上 而 不 需要 理会 性 能 。 然 而 ， 一 旦 认为 方案 运行 正确 ， 程 序 员 应 
该 通过 重 载 超 类 的 方法 getCapabilities() 确定 相应 性 能 ， 该 性 能 反映 的 是 方案 可 以 处 理 多 种 
数据 特点 的 能 力 。 该 方法 返回 一 个 封装 了 方案 可 处 理 特性 的 weka.core.Capabilities 对 象 。 

在 图 16-1 rP, Id3 的 getCapabilities() 首先 通过 调用 super.getCapabilities () 得 到 一 个 Ca- 
pabilities 对 象 。 最 好 的 推进 方式 是 在 Capabilities 对 象 上 调用 disableAll() 方 法 使 得 所 有 该 方 
案 能 处 理 的 相关 性 能 成 为 可 能 。Id3 只 是 实现 了 其 处 理 名 目 属 性 、 名 目 型 类 标 属 性 以 及 缺 
失 类 标 值 的 能 力 。Id3 也 规定 了 一 个 必需 的 零 训 练 实例 的 最 小 值 。 大 部 分 情况 下 ， 单独 的 
性 能 通过 调用 Capabilities 对 象 的 enable() 或 者 disable() 方 法 来 开启 或 者 关闭 。 这 些 方 法 带 
有 常数 ， 常 数 在 图 16-3 所 示 的 枚 举 中 定义 ， 这 是 Capabilities 类 的 一 部 分 。 
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Weka Explorer 的 辅导 练习 





学 习 Explorer 界面 的 最 好 方法 就 是 直接 使 用 该 接口 。 本 章 展示 了 一 系列 可 能 帮助 读者 
学 习 Explorer 以 及 通常 的 实际 数据 挖掘 任务 的 辅导 练习 。 第 一 节 是 介绍 性 内 容 ， 用 户 会 发 
现 后 面 小 节 的 练习 相当 具有 启发 性 。 

本 书 首先 为 读者 对 Explorer 界面 做 一 个 快速 的 导向 性 浏览 ， 了 解 每 个 面板 及 其 功能 ， 
这 部 分 内 容 与 第 11 章 相 对 应 。 书 中 的 屏幕 截图 选用 了 版 本 Weka 3.6， 虽 然 该 版 本 与 其 他 
版 本 几乎 没有 差别 。 


17.1 Explorer 界面 简介 


从 Windows 开始 菜单 调用 Weka (Linux 或 Mac 环境 下 则 分 别 双 击 weka.jar 或 
weka.app) 。 该 步骤 启动 Weka GUI Choose ( 见 图 11-3a) 。 点 击 Explorer 按钮 进入 Weka 的 
Explorer, “4 Explorer 界面 启动 之 后 预 处 理 面板 即 开 启 ( 见 图 11-3b) 。 


17. 1.1 导入 数据 集 


单 击 面板 左上 角 的 Open file 按钮 导 和 人 数据 集 。Weka 安装 时 提供 了 一 个 data 文件 夹 ， 
用 户 可 以 在 该 文件 夹 中 找到 一 个 名 为 weather.norminal.arff 的 文件 。 该 文件 包含 了 表 1-2 中 
标准 “天 气 ” 数 据 的 名 目 型 版 本 。 打 开 该 文件 夹 (打开 后 画面 如 图 11-3b 所 示 )。 

如 图 中 结果 所 示 ， 天 气 数 据 拥 有 14 个 实例 、5 个 属性 ， 属 性 分 别 为 outlook, tempera- 
ture, humidity, windy 以 及 play。 在 左边 子 面板 中 单 击 属 性 名 称 ， 在 右边 查看 所 选 属 性 的 
信息 ， 如 属性 值 、 数 据 集中 包含 唯一 值 的 实例 个 数 。 属 性 信息 同时 也 用 直方 图 的 形式 给 出 
来 。 该 数据 集中 所 有 的 属性 都 是 名 目 型 的 ， 也 就 是 说 ， 它 们 的 取 值 有 一 个 预先 定义 好 的 优 
先 集合 。 最 后 一 个 属性 play 是 “类 ”属性 ， 它 的 值 可 以 是 yes 或 者 no。 

通过 进行 如 下 练习 可 以 使 用 户 熟 悉 预 处 理 面 板 。 这 些 练习 以 及 本 节 其 他 练习 的 答案 在 
本 节 的 末尾 给 出 。 

练习 17.1.1 属性 temperature 可 以 取 哪 些 值 ? 

练习 17.1.2 导入 一 个 新 的 数据 集 。 单 击 Open file 按钮 ， 选 择 iris.arff 文件 ， 
即 表 1-4 中 的 葛 尾 花 数 据 集 。 该 数据 集 有 多 少 实例 ? 多少 属 性 ? 属性 petallength 
的 可 能 取 值 范围 是 多 少 ? 


17.1.2 数据 集 编辑 器 


从 Weka 内 部 查看 和 编辑 整个 数据 集 也 是 可 行 的。 为 了 进行 该 操作 ， 重 新 导入 weath- 
erm.nominal.arff 文件 。 从 预 处 理 面板 顶部 的 按钮 行 单 击 Edit 按钮 ， 这 样 打开 了 一 个 名 为 
Viewer (查看 器 ) 的 新 窗口 ， 该 窗口 列 出 了 天 气 数据 中 的 所 有 实例 〈 见 图 17-1) 。 
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1 Sunny hot high FALSE no 
2 sunny hot high TRUE no 
3 overcast hot high FALSE yes 
4 rainy mild high FALSE yes 
5 rainy cool normal FALSE yes 
6 rainy cool normal TRUE no 
7 ~~ @vercast cool normal TRUE yes 
8 sunny mild high FALSE no 
9 sunny cool normal FALSE yes 
10 rainy mild normal FALSE yes 
11 sunny mild normal TRUE yes 
12 overcast mild high TRUE yes 
13 overcast hot normal FALSE yes 
14 rainy mild high TRUE no 
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图 17-1 数据 查看 器 


练习 17.1.3 查看 器 窗口 第 一 列 的 功能 是 什么 ? 

练习 17.1.4 天 气 数据 中 编号 为 8 的 实例 ， 其 类 值 是 什么 ? 

练习 17.1.5 导入 昔 尾 花 数据 并 在 编辑 器 中 打开 。 该 数据 的 数值 型 属性 及 名 
目 型 数据 各 为 多 少 ? 


17.1.3 应 用 过 滤器 


用 户 已 经 了 解 ，Weka 的 “过 滤器 ”可 以 用 于 将 数据 集 进行 系统 式 的 调整 ， 也 就 是 说 ， 
过 滤器 是 数据 预 处 理工 具 。 重 新 载 人 weather.nominal 数据 集 并 从 中 移 除 一 个 属性 。 适 用 的 
过 滤器 叫做 Remove， 其 全 名 为 

weka.filters.unsupervised.attribute.Remove 
仔细 检查 该 全 名 。 过 滤器 用 层级 结构 组 织 起 来 ， 层 级 结构 的 根 是 weka。 类 别 unsupervised 
中 的 过 滤器 不 需要 设置 类 别 属性 ，supervised 中 的 过 滤器 则 需要 设置 。 过 滤器 进一步 分 为 
主要 在 属性 上 操作 的 (类 别 attribute) 以 及 主要 在 实例 上 操作 的 (类 别 instance) 。 

单 击 预 处 理 面板 上 的 Choose 按钮 打开 一 个 层级 式 菜单 ( 见 图 11-9a) ,根据 全 名 中 相 
应 的 路 径 从 菜单 中 选择 一 个 过 滤器 。 同 样 使 用 上 面 全 名 中 的 路 径 选 择 Remove 过 滤器 。 
Choose 按钮 旁边 的 区 域 将 出 现 “Remove”。 

单 击 包含 “Remove” 所 在 的 区 域 ， 打 开通 用 对 象 编辑 器 窗口 Weka 中 所 有 工具 的 参 
数 设 置 都 要 用 到 该 窗口 。 这 时 窗口 包含 了 对 Remove 过 滤器 的 一 个 简短 描述 (LES 11- 
9b) ， 单 击 More 看 到 更 完整 的 信息 ( 见 图 11-9c)。 键 入 3 进入 attributeIndices 区 域 ， 单 击 
OK 按钮 ， 带 有 过 滤器 选项 的 窗口 随 之 关闭 。 现 在 单 击 右边 的 Apply 按钮 将 数据 通过 过 滤 
器 。 过 滤器 从 数据 集中 移 除 索引 为 3 的 属性 ， 现 在 可 以 看 到 移 除 已 经 完成 。 这 个 操作 对 文 
件 中 的 数据 集 没 有 影响 ， 它 只 是 将 内 存 中 的 数据 应 用 到 过 滤器 。 改 变 后 的 数据 集 可 以 通过 
Save 按钮 并 键入 一 个 文件 名 而 保存 到 新 的 ARFF 文件 中 。 过 滤器 的 过 滤 操 作 也 可 以 通过 按 . 
Undo 按钮 来 撤销 。 同 样 撤销 操作 也 只 影响 内 存 中 的 数据 。 

前 面 描述 的 是 如 何 将 过 滤器 应 用 到 数据 上 。 实 际 上 针对 Remove 操作 还 有 一 种 更 简单 
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的 方法 可 以 取得 同样 的 效果 。 该 方法 并 不 调用 过 滤器 ， 而 是 在 属性 子 面板 的 小 框 中 选择 属 
性 ， 然 后 通过 位 于 属性 列表 下 方面 板 底部 的 Remove 按钮 进行 移 除 。 
练习 17.1.6 A weather.nominal 数据 集 。 使 用 过 滤器 weka.unsupervised. 
instance.RemoveWithValues 移 除 所 有 humidity 属性 值 为 high 的 实例 。 为 了 完成 该 
操作 ， 首 先 要 确定 Choose 按钮 旁边 区 域 中 显示 的 文本 是 RemoveWithValues。 然 后 
单 击 该 区 域 得 到 通用 对 象 编辑 器 窗口 ， 决 定 如 何 修改 过 滤器 设置 才 符合 要 求 。 
练习 17.1.7 撤销 刚才 进行 的 操作 ， 证 实数 据 已 经 恢复 到 原始 状态 。 


17. 1.4 可 视 化 面板 


现在 来 看 看 Weka 的 数据 可 视 化 工具 。 可 视 化 工具 在 数值 型 数据 上 表现 最 佳 ， 因 为 下 
MENT EEEE. FA iris.arf， 该 文件 包含 了 表 1-4 所 列 的 葛 尾 花 数 据 集 ， 共 有 50 
个 实例 ， 三 种 类 型 的 芒 尾 花 : Iris setosa, Iris versicolor 以 及 Iris virginica, 

单 击 Visualize 标签 得 到 可 视 化 面板 〈 见 图 11-17)。 单 击 面 板 中 第 二 行 的 第 一 个 图 打 
开 一 个 窗口 ， 窗 口 里 展示 了 利用 选择 的 坐标 轴 得 到 的 放大 图 。 实 例 表 示 为 小 又 号 ， 叉 号 的 
颜色 依据 实例 的 类 别 而 定 。x 轴 表 示 属 性 sepallength, y 轴 表 示 属 性 petalwidth 。 

单 击 其 中 一 个 叉 号 打开 实例 信息 窗口 ， 该 窗口 列 出 了 所 选 实例 的 全 部 属性 值 。 然 后 再 
关闭 实例 信息 窗口 。 

窗口 顶部 的 选择 区 域 包含 了 决定 x IURI y 轴 所 代表 属性 的 散 点 图 。 将 x 轴 修 改 为 petal- 
width, y 轴 修 改 为 petallength。Color: class (Num) 的 区 域 可 以 用 于 修改 颜色 编码 。 

散 点 图 窗口 右边 的 每 个 条 状 图 表示 一 个 单独 的 属性 。 在 每 个 横 条 中 ， 实 例会 被 置 于 合 
适 的 横 坐 标 上 ， 垂 直方 向 上 则 将 随机 地 散 开 分 布 。 单 击 一 个 横 条 ， 使 用 该 属性 作为 散 点 图 
的 x 轴 。 右 击 一 个 横 条 做 同样 的 操作 可 以 为 散 点 图 指定 y 轴 。 使 用 这 些 横 条 将 * 轴 和 y 轴 
变 回 sepallength 和 petalwidth。 

Jitter 滚动 条 随机 地 将 实例 从 其 真实 位 置 蔡 换 为 又 号 ， 同 时 反映 实例 位 于 其 上 的 位 置 。 
移动 滚动 条 进行 实验 。 

Select Instance 按钮 以 及 Reset, Clear, Save 按钮 让 用 户 可 以 修改 数据 集 。 可 以 选 定 某 
些 实例 ， 删 除 某 些 实例 。 尝 试 和 矩形 选项 : 单 击 拖 动 鼠标 选中 一 个 区 域 。Reset 按钮 变 为 
Submit 按钮 。 单 击 该 按钮 ， 所 有 和 矩形 框 以 外 的 实例 都 会 被 选中 。 用 户 可 以 使 用 Save 按钮 
将 修改 后 的 数据 集 保存 到 数据 集中 。Reset 按钮 可 以 恢复 原始 数据 集 。 


17.1.5 分 类 器 面板 


现在 将 一 个 分 类 器 应 用 到 天 气 数据 中 。 再 次 导入 天 气 数据 。 在 预 处 理 面 板 单 击 Open 
file 按钮 从 数据 目录 中 选择 weather.nominal.arf。 然 后 单 击 窗口 顶部 的 Classify 标签 转向 分 类 
mI ( 见 图 11-4b) 。 

使 用 C4. 5 分 类 器 

正如 用 户 在 第 11 章 中 所 学 习 的 一 样 ， 用 于 构建 决策 树 的 CA. 5 算法 在 Weka 中 实现 为 
J48。 通 过 单 击 靠近 Classify 标签 顶部 的 Choose 按钮 选中 J48。 弹 出 的 对 话 框 展示 了 各 种 类 
型 的 分 类 器 。 单 击 trees 查看 其 分 项 目 ， 单 击 J48 选中 该 分 类 器 。 与 过 滤器 一 样 ， 分 类 器 同 
样 组 织 成 层级 式 结构 ，J]48 的 全 名 为 weka.classifiers.trees.J48 。 
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分 类 器 已 经 展示 在 Choose 按钮 旁边 的 文本 框 中 ， 目 前 显示 为 48 - C0.25 - M2, iX 
命令 给 出 了 分 类 器 的 默认 参数 设置 ， 这 种 情况 一 般 很 少 需要 为 提高 性 能 而 修改 参数 设置 。 
为 了 说 明 ， 本 书 下 面 使 用 在 预 处 理 面板 中 导入 的 训练 数据 进行 评估 性 能 ， 但 通常 这 样 
并 不 是 个 好 想法 ， 因 为 使 用 训练 数据 会 导致 对 分 类 器 性 能 过 于 乐观 的 估计 。 从 分 类 器 面板 


的 Test options 部 分 选择 Use training set。 


分 类 器 并 进行 评估 。 


测试 方案 确定 下 来 之 后 ， 按 Start 按钮 就 可 以 创建 
这 个 过 程 使 用 目前 选 定 的 学 习 算 法 、 图 中 例子 (BI C4.5 SETA) , 来 


处 理 训练 集 。 然 后 再 对 训练 数据 中 所 有 实例 进行 分 类 ， 输 出 性 能 统计 量 。 如 图 17- 2a 


所 示 。 






t; Classifier- 


! CD jac C025 -M2 


Test options 
© Use training set 
O Supplied test set ( sse ) 








| OCross-validation Folds 10 |7 
{i || Correctly Classified T 1a 100 
; > | 
i O Percentage split * 66 | edes classifies edn p] o 
/| Kappa 1 
||] Mean fec error o 
More options... | Root mean squared o; o 
s~- |} Relative absolute error o * 
| Root relative &qua; o X 
E . (Nom play E! Total number of I ance: i4 
R | *** Detailed Accurac’ y By Class 
eut D i D a 1 TP Mate FP Rate Precision Recall f-Meagure 
f H 1 1 1 
;r Result list (right-click for options) || n 9 1 1 1 
j| Weighted Avg. i 0 1 1 
oem [| = Confusion Matrix === 
! [i ab <-+ classified as 
1 hi 9 0 | a= yes 
| Hf es|bssno 
Status ~ * i 
| OK 


3 Classifier output à = 


f Preprocess Classify Cluster Associate Select attributes — Visualiz 











Time taken to build model: 0.08 seconds 


sse Evalua Bion on training set === 
Summary ~ 


a) 屏幕 截图 


J48 pruned tree 


outlook = sunny 
| humidity = high: no (3.0) 
humidity = normal: yes (2.0) 
outlook = overcast: yes (4.0) 
outlook = rainy 
windy = TRUE: no (2.0) 
windy = FALSE: yes (3.0) 


Number of Leaves : 5 


Size of the tree : 8 





b) 决策 树 


图 17-2 创建 并 测试 分 类 器 后 的 输出 结果 


解释 输出 





Pa 
E: 
Ej 
Hi 
| 1 
T 
$ 
Ei 
ROC Ar ; 
1 
l 
1 
DUREE 5 
QD age 


面板 右 方 的 分 类 器 输出 框 中 显示 了 训练 和 测试 过 程 的 结果 。 拉 动 文本 的 滚动 条 查看 该 
结果 。 首 先 看 到 描述 决策 树 的 部 分 ， 图 17-2b 是 该 部 分 的 复制 。 图 中 呈现 的 就 是 所 创建 的 
决策 树 ， 包 括 归 到 叶子 下 面 的 实例 数目 。 相 应 的 文本 表述 比较 笨拙 ， 而 Weka 可 以 产生 一 
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个 同等 的 图 形 化 版 本 。 

下 面 看 看 如 何 得 到 图 形 化 的 树 。 每 次 按 Start 按钮 就 会 有 一 个 新 的 分 类 器 创建 并 评估 ， 
继而 在 图 17-2a 左下 角 的 结果 列表 面板 中 就 会 出 现 一 个 新 条 目 。 为 了 看 到 创建 的 树 ， 右 击 
刚刚 添加 到 结果 列表 中 的 条 目 trees.J48 ， 选 择 Visualize tree。 继 而 会 弹出 一 个 窗口 ， 窗 口 
以 图 17-3 的 形式 展示 决策 树 。 在 窗口 的 空白 处 右 击 得 到 的 菜单 可 以 让 用 户 调节 树 的 大 小 。 
用 户 还 可 以 拖 动 鼠标 翻转 查看 决策 树 。 

现在 看 到 分 类 器 输出 部 分 的 剩余 信息 。 输 出 结果 中 接 下 来 的 两 个 部 分 给 出 的 是 基于 选 
定 的 测试 选项 得 到 的 分 类 器 模型 质量 。 

下 面 这 个 句子 说 明了 正确 分 类 测试 实例 的 数量 和 百分比 : 

Correctly Classified Instances 14 100% 

这 是 模型 在 用 于 测试 的 数据 上 准确 率 。 本 例 中 为 完全 正确 (100% ) ， 通 常情 况 只 有 把 
训练 集 用 做 测试 集 时 才 会 有 如 此 效果 。 

输出 结果 的 底部 是 混淆 矩阵 ; 


=== Confusion Matrix === 


ab <- classified as 
9 0 | a = ves 
05 | b= no 


和 矩阵 中 的 每 个 元 素 都 代表 了 一 定量 的 实例 。 和 矩阵 的 行 表 示 真 实 的 类 别 ， 列 表示 预测 的 
类 别 。 如 图 17-2 中 所 示 ， 所 有 9 yes 类 别 的 实例 都 预测 为 yes，5 个 no 类 别 的 实例 也 都 
预测 为 no。 





- 


= sunny = overcast = rainy 


图 17-3 已 创建 的 决策 树 
练习 17.1.8 如 何 使 用 决策 树 对 实例 进行 分 类 ? 
outlook = sunny, temperature = cool, humidity = high, windy = TRUE 
设 定 测 试 方法 . 
一 旦 按 下 Start 按钮 ， 选 定 的 学 习 算法 就 开始 运行 ,同时 预 处 理 面 板 导 和 人 的 数据 集 以 
及 测试 方案 一 起 得 到 使 用 。 例 如 ， 在 10 折 交 叉 验 证 中 ， 该 过 程 就 包括 运行 学 习 算 法 10 次 
来 创建 并 评估 10 个 分 类 器 。 继 而 分 类 器 结果 区 域 中 会 显示 由 完整 训练 数据 集 得 到 的 模型 
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结果 : 这 可 能 是 最 后 一 次 运行 该 学 习 算 法 。 剩 下 的 输出 则 依据 所 测试 选项 选 定 的 测试 方案 
而 定 ， 选 项 在 11. 1 节 中 已 讨论 过 。 
练习 17.1.9 使 用 预 处 理 面 板 导 人 车 尾 花 数据 集 。 分 别 用 (a) 训练 集 ; 
(b) 十 字 交 又 两 种 方案 在 数据 上 评估 C4.5。 两 种 方案 的 正确 分 类 评估 百分比 分 
别 为 多 少 ? 哪个 方案 的 评估 更 合 实际 ? 
可 视 化 分 类 错误 
右 击 结果 列表 中 的 trees.J48 条 目 ， 选 择 Visualize classifier errors。 系 统 弹 出 一 个 散 点 图 
窗口 。 正 确 分 类 的 实例 已 用 小 又 号 标记 ， 错 误 分 类 的 实例 则 由 小 方形 标记 。 
练习 17.1.10 使 用 Visualize classifier errors 函数 为 练习 17.1.9 中 执行 的 交 
叉 验 证 寻找 错误 分 类 的 实例 。 观 察 错 误 的 位 置 有 什么 收获 ? 


17.2 最 近邻 学 习 和 决策 树 


本 节 中 用 户 将 使 用 最 近邻 分 类 器 和 决策 树 学 习 进 行 实验 。 大 部 分 实验 使 用 了 一 个 真实 
的 分 类 数据 集 。 

开始 实验 之 前 先 对 数据 集 做 一 个 基本 的 了 解 。 然 后 验证 为 最 近邻 分 类 选择 不 同属 性 的 
影响 。 接 下 来 了 解数 据 的 类 别 噪声 及 其 对 最 近邻 方法 的 预测 性 能 的 影响 。 继 而 改变 数据 集 大 
小 用 于 最 近邻 算法 和 决策 树 学 习 。 最 后 在 一 个 图 像 分 割 数据 集 上 交互 式 地 创建 一 棵 决策 树 。 

继续 下 面 的 实验 之 前 最 好 先 在 脑海 里 回顾 一 下 分 类 任务 的 一 些 问题 : 

。 分 类 器 的 正确 度 如 何 度量 ? 

e 为 了 得 到 一 个 好 的 分 类 器 ， 所 有 的 属性 都 必须 用 到 吗 ? 

e 类 别 噪声 是 什么 ， 如 何 度量 它 对 学 习 过 程 的 影响 ? 

。 什么 是 学 习 曲 线 ? l l 

。 如 果 需 要 为 一 个 特殊 的 数据 集 独立 设计 一 个 决策 树 分 类 器 ， 该 怎么 做 ? 


17.2.1 玻璃 数据 集 


玻璃 数据 集 glass.arff 来 自 美国 法 医科 学 服务 中 心 ， 包 含 了 6 种 类 型 的 玻璃 。 每 种 玻璃 
由 其 折射 率 以 及 所 包含 的 化 学 元 素来 描述 ， 目 的 就 是 利用 这 些 特征 对 玻璃 的 不 同类 别 进行 
分 类 。 该 数据 集 来 自 UCI 数 据 集 ，UCI 数据 集 是 加 利 福 尼 亚 大 学 欧文 分 校 搜集 ， 可 从 网 上 
免费 下 载 。 这 些 数据 集 通 常用 做 数据 挖掘 算法 的 基准 。 
找到 glass.arff 数据 集 并 将 其 导入 Explorer 界面 中 。 根 据 已 有 信息 完成 下 面 的 练习 ， 这 
些 练习 回顾 了 前 面 小 节 包 含 的 内 容 。 
练习 17.2.1 数据 集中 有 多 少 属性 ? 属性 名 分 别 是 什么 ? 类别 属 性 是 什么 ? 
运行 分 类 算法 IBk (weka.classifiers.lazy.IBk) 。 使 用 交叉 验证 来 检测 其 性 能 ， 折 的 
个 数 为 默认 值 10。 可 以 通过 单 击 Choose 按钮 旁边 的 文本 弹出 通用 对 象 编辑 窗口 ， 
在 窗口 中 检查 分 类 器 选项 。KNN 区 域 默 认 值 为 1， 它 设置 了 用 于 分 类 的 邻居 实例 
个 数 。 
练习 17.2.2 IBk 的 准确 率 是 多 少 〈 分 类 器 输出 框 中 给 出 的 结果 )? 再 次 运 
ÍT IBk, Æ KNN 区 域 输入 5 将 邻居 实例 数目 增加 到 丰 =5。 本 例 中 以 及 本 小 节 后 面 
所 有 的 练习 依然 使 用 交叉 验证 作为 评估 方法 。 
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练习 17.2.3 5 个 邻居 实例 的 IBk 的 准确 率 为 多 少 (k=5)? 
17. 2.2 属性 选择 


下 面 证 明 哪 个 属性 子 集 可 以 得 到 在 玻璃 数据 集 上 使 用 IB 算法 的 最 佳 交叉 验证 分 类 准 
确 率 。Weka 中 包含 了 自动 选择 属性 功能 ， 这 个 会 在 后 面 小 节 考察 ,但 实际 上 手动 选择 属 
性 是 很 有 益 的 。 

执行 一 个 贪 禁 搜索 来 试图 得 到 所 有 可 能 的 属性 子 集 是 不 可 能 的 (为 什么 ?) ， 因 而 此 处 
使 用 7. 1 节 中 描述 的 反 向 删除 法 。 为 进行 反 向 删除 过 程 ， 首 先 从 完整 数据 集中 分 别 丢 弃 每 
个 属性 ， 然 后 再 运行 交叉 验证 。 一 旦 得 到 了 最 佳 的 8 个 属性 数据 集 ， 就 可 以 在 精简 后 的 数 
据 集 上 重复 上 述 过 程 继 而 得 到 最 佳 的 7 个 属性 数据 集 等 。 

练习 17.2.4 将 最 佳 属性 集 以 及 每 次 迭代 中 最 高 的 准确 率 记录 在 表 17-1 中 。 
该 过 程 中 得 到 的 最 高 准确 率 比 完整 数据 集 上 得 到 的 准确 率 略 高 。 
表 17-1 对 不 同 数据 集 使 用 IBk 得 到 的 准确 率 


子 集 大 小 (属性 个 数 ) 最 佳 子 集中 的 属性 分 类 准确 率 
9 











or NW FUND - oo 


练习 17.2.5 该 最 佳 准确 率 在 未 来 数据 上 依然 是 一 个 公平 的 准确 率 评估 。 务 
必 对 答案 做 出 解释 〈 提 示 : 为 了 获得 对 未 来 数据 准确 率 的 公平 评估 ， 在 产生 分 类 
器 模型 获得 评估 结果 时 一 定 不 能 查看 测试 数据 ) 。 


17.2.3 ”类 噪声 以 及 最 近邻 学 习 


和 其 他 分 类 技术 一 样 ， 最 近邻 学 习 同 样 对 训练 数据 中 的 噪声 敏感 。 本 小 节 往 数据 中 注 
和 人 数目 可 变 的 类 噪声 ， 然 后 观察 其 对 分 类 性 能 的 影响 。 i 

用 户 可 以 利用 weka.dilters.unsupervised.attribute 中 名 为 AddNoise 的 无 监督 属性 过 滤器 
将 数据 中 一 定 百分比 的 类 别 标 号 随机 转换 为 其 他 的 值 。 但 本 实验 中 测试 数据 未 被 噪声 类 别 
影响 是 很 关键 的 一 点 。 通 常 都 需要 对 训练 数据 进行 过 滤 而 不 对 测试 数据 过 滤 ， 这 一 点 用 
11. 3 节 末 尾 处 描述 的 weka.classifiers.meta 中 名 为 FilteredClassifier 的 元 学 习 器 就 可 以 实现 。 
需要 将 该 元 学 习 器 进行 设置 ， 分 类 器 为 IBk， 过 滤器 为 AddNoise, FilteredClassifier 在 运行 
学 习 算 法 之 前 将 过 滤器 运用 到 数据 上 。 这 个 过 程 分 两 批 完 成 : 首先 是 训练 数据 ， 然 后 是 测 
试 数据 。AddNoise 过 滤器 仅仅 只 添加 噪声 到 其 处 理 的 第 一 批 数据 中 ， 这 就 意味 着 通过 的 测 
试 数据 并 未 被 改变 。 

练习 17.2.6 在 表 17-2 中 记录 10 种 不 同 百分比 的 类 别 噪 声 以 及 邻居 个 数 分 
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RIA k=1, k=3, k=5 (由 有 近邻 分 类 器 的 k 决 定 ) 的 情况 下 ，IBk 算法 的 交叉 
验证 评估 准确 率 。 
表 17-2 ”对 于 不 同 的 邻居 个 数 ， 类 别 噪声 对 IBk 的 影响 
噪声 百分比 k=1 k=3 k 

0% 

10% 

20% 

30% 

40% 

50% 

60% 

70% 

80% 

90% 

100% 


i] 
a 








练习 17.2.7 新 增加 的 类 别 噪声 有 什么 影响 ? 
练习 17.2.8 改变 k 值 有 什么 影响 ? 


17.2.4 改变 训练 数据 的 数量 


本 节 查 看 学 习 曲 线 ， 该 曲线 可 以 展示 逐渐 增加 的 训练 数据 数量 对 分 类 的 影响 。 再 次 使 用 
玻璃 数据 ， 但 这 里 将 同时 用 到 IBk 以 及 在 Weka 中 实现 为 J48 的 C4. 5 决策 树 的 两 种 学 习 器 。 
为 了 获得 学 习 曲 线 ， 需 要 再 次 使 用 filteredClassifier， 这 次 将 与 weka-filters.unsupervised. in 
stance.Resample 一 起 使 用 ， 它 从 给 定数 据 集 的 特定 百分比 抽取 得 到 ， 返回 一 个 精简 后 的 数 
据 集 S 。 同 样 ， 这 些 操 作 也 只 对 过 滤器 应 用 的 第 一 批 数 据 起 作用 ， 因 此 测试 数据 在 到 达 分 
类 器 之 前 通过 FilteredClassifier 没有 任何 改变 。 
练习 17.2.9 将 用 于 获得 1 最 近邻 分 类 器 ( 即 上 =1 的 IBk) 和 J]48 分 类 器 的 
学 习 曲 线 的 数据 记录 在 表 17-3 中 。 
. 表 17-3 训练 集 大 小 对 IBk 和 J48 的 影响 
训练 集 百 分 比 IBk J48 
10% 
20% 
30% 
40% 
50% 
60% 
70% 
80% 
90% 
100% 





练习 17.2.10 不 断 增加 的 训练 数据 数目 的 影响 是 什么 ? 


O 该 过 滤器 执行 的 是 有 放 回 抽样 而 不 是 无 放 回 抽样 ， 但 影响 很 小 ， 故 此 处 忽略 不 计 。 
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练习 17.2.11 Xf IBk BY J48 的 影响 是 否 更 明显 ? 
17.2.5 交互 式 建立 决策 树 


Weka 中 有 一 个 分 类 器 是 交互 式 的 : 它 可 以 允许 用 户 ， 也 就 是 你 ， 创 建 自己 的 分 类 器 。 
下 面 是 一 个 比赛 : 谁 可 以 创建 一 个 拥有 最 高 准确 率 的 分 类 器 ? 

按照 11. 2 节 中 所 描述 的 步 台 ， 导 人 文件 segmentchallange.arff ( Weka 的 数据 文件 中 )。 
该 数据 集 有 20 个 属性 ，7 个 类 别 。 它 是 一 个 图 像 分 割 问 题 ， 具 体 任务 就 是 根据 像素 特征 将 
图 形 分 到 7 种 不 同 的 组 中 去 。 

将 分 类 器 设置 为 位 于 weka.classifiers.trees 包 中 的 UserClassifier。 使 用 单独 测试 集 ，( 使 
用 UserClassifier 执行 交叉 验证 太 过 宛 长 !) 因此 在 测试 选项 框 中 选择 Supplied test set 选项 ， 
单 击 Set 按钮 。 在 弹出 的 小 窗口 中 可 以 选择 测试 集 。 单 击 Open file 找到 文件 segment- 
testarff (同样 位 于 Weka 的 data 文件 夹 )。 一 旦 单 击 了 Open 之 后 ， 小 窗口 的 信息 就 更 新 为 


数据 中 的 属性 个 数 〈20) 。 实 例 的 数目 并 没有 给 出 ， 这 是 由 于 测试 实例 是 增 量 式 地 逐渐 读 


出 (因此 Explorer 界面 才 可 以 处 理 比 主 存 容量 更 大 的 测试 文件 ) 。 

与 所 有 其 他 的 分 类 器 不 同 ， 单 击 Start.UserClassifier: 该 操作 打开 了 一 个 特殊 窗口 ， 等 
待 用 户 在 其 中 创建 自己 的 分 类 器 。 窗 口 顶部 的 标签 可 以 转换 分 类 器 的 两 种 不 同 视图 。Tree 
visualizer 展示 目前 用 户 的 树 的 状态 ， 结 点 给 出 了 此 处 实例 值 的 数目 。 目 的 是 找到 一 棵 其 叶 
子 结 点 越 纯 越 好 的 树 。 开 始 时 ， 树 只 有 一 个 结 点 〈 即 根 结 点 ) ， 它 包含 了 所 有 的 数据 。 当 
用 户 继续 分 割 数据 后 会 在 Data visualizer 中 出 现 更 多 的 结 点 。 

单 击 Data visualizer 标签 查看 一 个 2 维 图 ， 图 中 的 点 根据 类 别 进行 着 色 ， 这 与 17. 1 节 
中 讨论 的 可 视 化 面板 中 的 功能 一 样 。 可 以 通过 尝试 不 同 的 x 轴 和 y 轴 找 到 最 清晰 的 颜色 区 
分 。 找 到 一 个 好 的 区 分 以 后 ， 还 需要 在 图 中 选择 一 个 区 域 : 这 时 会 为 树 创建 一 个 树枝 。 下 
面 是 一 个 开始 的 提示 : 将 x 轴 设 为 region-centroid-row，y 轴 为 intensity-mean (如 图 11-14a 
所 示 ) ， 可 以 看 到 红色 类 别 (sky) 很 好 地 从 图 形 上 部 分 剩 下 的 类 别 中 区 分 出 来 。 

有 四 种 工具 用 于 在 图 中 选择 区 域 ， 可 以 通过 使 用 y 轴 选 择 器 下 面 的 下 拉 菜 单 选 定 。Se- 
lect Instance 标识 了 一 个 特定 的 实例 。Rectangle (ILA 11-14a) 则 允许 用 户 在 图 上 拖 出 一 
个 长 方形 。 用 户 可 以 使 用 Polygon 以 及 Polyline 创建 一 个 自由 形态 的 多 边 形 或 画 一 个 自由 形 
态 的 多 边 形 ( 单 击 添加 一 个 顶点 ， 右 击 完成 操作 ) 。 

当 单 用 户 使 用 任何 工具 选 定 了 一 个 区 域 后 ， 区 域 就 变 成 灰色 (在 图 11-14a 中 用 户 定 
义 了 一 个 长 方形 ) 。 单 击 Clear 按钮 取消 选择 区 域 ， 但 不 影响 分 类 器 。 若 对 该 选择 比较 满 
意 ， 则 单 击 Submit。 这 时 候 会 在 树 上 创建 两 个 新 的 结 点 ， 一 个 结 点 包含 所 选区 域 里 的 所 有 
实例 ， 另 一 个 包含 所 有 剩余 的 实例 。 这 些 结 点 就 是 执行 了 所 选 定 的 几何 检测 之 后 所 得 到 的 
二 分 裂 。 

回 到 Tree visualizer 视图 查看 树 的 改变 。 单 击 不 同 的 结 点 ， 可 以 改变 Data visualizer 部 
分 中 所 展示 的 数据 子 集 。 继 续 添加 结 点 ， 直 到 得 到 一 个 比较 好 的 类 别 分 割 ， 也 就 是 说 ， 树 
的 叶子 结 点 几乎 是 纯 的 。 然 而 ， 请 记 住 不 能 对 数据 过 度 拟 合 ， 因 为 创建 的 树 必须 在 一 个 单 
独 的 测试 集 上 进行 评估 。 

当 比较 满意 创建 的 树 时 ， 在 Tree visualizer 视图 的 任意 空白 处 右 击 并 选择 Accept The 
Tree 即 可 。Weka 在 测试 集 上 对 创建 的 树 进 行 评估 ， 输 出 表示 树 的 性 能 的 统计 量 。 
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练习 17. 2. 12 尺 最 大 努力 让 在 segment- challenge 数据 集 上 手动 创建 的 User- 
Classifier 通过 segment- test 测试 集 时 有 最 佳 的 准确 率 。 你 可 以 尽 可 能 多 地 尝试 。 
当 获 得 一 个 比较 好 的 分 数 时 (任何 接近 90% 或 者 更 高 的 ) 时 ， 右 击 结果 列表 中 
的 相应 条 目 ， 使 用 Save result buffer 保存 输出 ， 再 将 其 复制 到 本 练习 的 答案 中 。 
然后 在 数据 上 运行 M8， 看 看 自动 生成 的 决策 树 学 习 咒 执行 该 任务 的 性 能 如 何 。 


17.8 分 类 边界 


本 节 查 看 由 不 同类 型 的 模型 产生 的 分 类 边界 。 使 用 Weka 的 Boundary Visualizer (边界 
查看 器 ) 来 进行 该 操作 ， 它 并 不 是 Explorer 界面 的 一 部 分 。 要 找到 Weka 的 Boundary Visu- 
alizer， 首 先 按 通常 的 方式 从 Windows Start 菜单 启动 Weka GUI Chooser (Linux 双击 weka.jar， 
Mac 则 双击 weka.app) ， 从 顶部 的 Visualization 菜单 选择 Boundary Visualizer, 

边界 查看 器 展示 了 一 个 数据 的 2 维 图 ， 这 对 于 包含 两 个 数值 型 属性 的 数据 集 十 分 合 
适 。 使 用 的 数据 集 是 除去 前 两 个 属性 的 芒 尾 花 数据 集 。 要 得 到 该 数据 集 ， 启 动 Explorer 界 
面 使 用 Open file 按钮 导入 iris.arf， 经 选 定之 后 再 单 击 Remove 按钮 移 除 前 两 个 属性 ( sepal- 
length 和 sepalwidth) 。 然 后 将 修改 过 的 数据 集 保存 到 名 为 iris. 2D.arff 的 文件 中 (使 用 Save 
按钮 ) 。 

现在 离开 Explorer 界面 ， 使 用 边界 查看 器 的 Open file 按钮 打开 该 文件 。 开 始 的 时 候 ， 
得 到 的 图 仅仅 展示 了 数据 集中 的 数据 。 


17. 3.1 可 视 化 1R 


边界 查看 器 的 目的 在 于 展示 给 定 模型 在 每 种 可 能 属性 值 组 合 上 的 预测 结果 ， 也 就 是 考 
虑 2 维 空间 上 的 每 个 点 。 这 些 点 根据 模型 产生 的 预测 结果 进行 颜色 标记 ， 下 面 将 用 它 来 研 
究 不 同 分 类 器 为 精简 后 的 芒 尾 花 数 据 集 产生 的 决策 边界 。 

从 1R 规则 学 习 器 开始 。 使 用 边界 查看 器 的 Choose 按钮 选择 weka.classifiers.rules.OneR 。 
必须 确保 标记 的 是 Plot training data， 否 则 绘制 的 图 中 只 有 预测 值 。 然 后 单 击 Start 按钮 。 程 
序 通 过 逐次 扫描 开始 绘制 预测 值 。 一 旦 图 已 经 稳定 ， 则 单 击 Stop 按钮 (这 种 情况 完全 取 
决 于 用 户 的 意愿 ) ， 训 练 数据 就 会 重新 添加 到 边界 查看 器 上 。 

练习 17.3.1 根据 你 所 了 解 的 1R 来 解释 该 图 (提示: 使 用 Explorer 界面 查 

看 1R 为 该 数据 产生 的 规则 集 ) 。 

练习 17.3.2 通过 取 值 为 1， 然 后 20， 以 及 1 ~20 之 间 的 重要 值 重新 绘制 

图 ， 在 分 类 器 上 学 习 minBucketSize 参数 的 影响 。 描 述 所 观察 到 的 内 容 ， 然 后 做 

出 解释 (提示 : 可 以 使 用 Explorer 界面 查看 规则 集 来 加 速 这 个 过 程 ) 。 

现在 考虑 1R 的 内 部 机 制 来 回答 下 面 的 问题 (提示 : 使 用 Explorer 界面 查看 规则 集 很 
可 能 是 最 快 的 ) 。 

练习 17.3.3 前 面 在 可 视 化 1R 的 图 中 通常 有 3 个 区 域 。 但 是 对 于 更 小 的 桶 

为 什么 没有 更 多 的 分 区 ? 根据 目前 的 1R 知识 解释 这 个 明显 的 异常 。 

练习 17.3.4 你 可 以 将 minBucketSize 设置 为 一 个 值 ， 得 到 小 于 3 个 的 区 域 
吗 ? 最 小 可 能 的 区 域 个 数 是 多 少 ? 对 应 该 区 域 个 数 ，minBucketSize 的 最 小 取 值 为 
多 少 ? 根据 你 所 了 解 的 芒 尾 花 数据 解释 你 的 结果 。 
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17.3.2 可视化 最 近邻 学 习 


现在 查看 由 最 近邻 方法 得 到 的 分 类 器 边界 。 使 用 边界 查看 器 的 Choose 按钮 选择 IBk 分 
类 器 (weka.classifiers.lazy.IBk) ， 画 出 精简 后 索 尾 花 数 据 的 决策 边界 。 
OneR 的 预测 结果 是 明确 的 : 对 每 个 实例 ， 它 会 预测 为 三 个 类 别 中 的 一 个 。 相 反 ，IBk 
则 输出 每 个 类 别 的 概率 估计 ， 边 界 查看 器 使 用 这 些 概率 进行 颜色 混合 ， 红 色 、 绿 色 、 蓝 色 
分 别 对 应 三 个 类 。IBk 通过 观察 测试 实例 的 下 近邻 集合 计算 每 个 类 的 计数 来 估计 类 概率 。 
练习 17.3.5 使 用 默认 值 %=1， 似乎 最 近 的 邻居 集合 应 该 只 有 一 个 实例 ， 
所 以 相应 的 颜色 应 该 是 纯粹 的 红色 、 绿 色 或 者 蓝 色 。 由 图 中 可 以 看 到 ， 几 乎 事实 
就 是 这 个 情况 : 图 中 没有 混合 的 颜色 ， 因 为 一 个 类 别 的 概率 为 1 而 其 他 的 都 为 概 
率 0。 然 而 事实 上 图 中 有 一 个 小 区 域 中 两 个 颜色 混合 了 。 请 做 出 解释 (提示 : 使 
用 Explorer 界面 的 可 视 化 面板 仔细 检查 数据 ) 。 
练习 17.3.6 用 不 同 的 进行 实验 ， 比 如 说 5 和 10。 描 述 当 名 增 大 之 后 所 发 
生 的 情形 。 


17. 3.3 可 视 化 朴素 贝 叶 斯 


现在 看 看 朴素 贝 叶 斯 分 类 器 。 朴 素 贝 叶 斯 分 类 器 假设 属性 对 确定 类 别 值 的 影响 相互 独 
立 ， 这 意味 着 整个 类 的 概率 是 通过 单个 属性 的 条 件 概率 累 乘 得 到 (同时 还 要 考虑 类 的 先 验 
概率 ) 。 换 言 之 ， 对 于 两 个 属性 的 情况 ， 如 果 知 道 了 x 轴 与 y 轴 分 别 对 应 的 类 别 概 率 Cn 
上 类 的 先 验 概率 ) ， 那 么 就 可 以 将 两 个 值 相 乘 (再 规范 化 ) 来 计算 空间 中 任何 一 个 点 的 
值 。 将 该 朴素 贝 叶 斯 分 类 器 可 视 化 为 边界 图 就 比较 容易 理解 了 。 

下 面 用 朴素 贝 叶 斯 的 预测 值 进 行 绘图 。 首 先 将 属性 值 离散 化 。 默 认 情 况 下 ，Weka 的 
NaiveBayes 分 类 器 假定 给 定 类 别 时 ， 属 性 呈正 态 分 布 。 用 户 应 该 通过 使 用 通用 对 象 编辑 器 
窗口 将 useSupervisedDiscretization 设 为 true 来 改变 这 种 情况 。 这 样 会 导致 NaiveBayes 用 一 
种 有 监督 的 离散 化 技术 将 数据 中 的 数值 型 属性 离散 化 。 在 许多 NaiveBayes 的 实际 应 用 中 ， 
有 监督 离散 化 比 默认 方法 好 。 同 时 它 也 会 得 到 一 个 更 综合 的 可 视 化 结果 ， 这 也 是 此 处 使 用 
该 方法 的 原因 。 

练习 17.3.7 将 NaiveBayes 在 每 个 像素 点 位 置 的 预测 类 别 值 进 行 可 视 化 所 产 

生 的 图 ,与 目前 我 们 所 了 解 的 其 他 事情 都 不 同 。 请 解释 其 中 的 模式 。 


17.3.4 ”可视化 决策 树 和 规则 集 


决策 树 和 规则 集 与 最 近邻 学 习 比较 类 似 ， 因 为 它们 都 是 准 普遍 的 (quasi- universal) : 原 
则 上 讲 ， 它 们 可 以 任意 接近 地 近似 到 任何 决策 边界 。 本 节 查 看 有 Rip UR 148 产生 的 边界 。 
使 用 默认 选项 为 JRip 产生 一 个 图 。 
练习 17.3.8 你 看 到 的 是 什么 ? 通过 在 Explorer 中 处 理 数据 ， 将 图 与 所 得 规 
则 的 输出 结果 联系 起 来 。 
练习 17.3.9 JRip 的 输出 结果 假定 规则 将 以 正确 的 顺序 执行 。 写 一 个 同等 的 规则 
集 ， 无 论 执行 顺序 如 何 都 可 以 获得 相同 的 效果 。 使 用 默认 选项 为 J48 产生 一 个 图 。 
练习 17.3.10 你 看 到 的 是 什么 ? 再 次 通过 在 Explorer 界面 上 处 理 数 据 ， 将 
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图 与 所 得 结果 联系 起 来 。 一 种 方式 是 控制 J48 需 执行 多 少 剪 枝 来 获得 一 个 叶子 结 
点 所 需 实例 的 最 小 数目 ，minNumObj。 

练习 17.3.11 假设 你 需要 分 别 创建 3、2、1 个 叶子 结 点 的 树 。 其 他 参数 为 
默认 值 ， 为 创建 这 些 树 所 需 的 minNumObj 值 的 准确 范围 是 什么 ? 


17. 3.5 FAL 


使 用 边界 查看 器 ， 用 户 可 以 通过 添加 或 者 移 除 点 来 修改 数据 。 
练习 17.3.12 往 数 据 中 注入 一 些 噪声 ， 查 看 前 面 的 学 习 算 法 的 影响 。 根 据 
你 的 观察 ， 在 注入 了 噪声 之 后 各 个 算法 都 有 何 种 表现 ? 


17.4 预 处 理 以 及 参数 调整 


现在 来 看 看 一 些 有 用 的 预 处 理 技术 ， 这 些 技术 实现 是 过 滤器 以 及 一 些 自动 调整 参数 的 
方法 。 


17.4.1 离散 化 


如 我 们 前 面 了 解 的 ， 一 共有 两 种 离散 化 技术 。 一 种 是 无 监督 的 ， 即 不 知道 类 别 ; 另 一 
种 是 有 监督 的 ， 在 进行 区 间 分 割 的 时 候 会 考虑 实例 的 类 值 。Weka 中 用 于 数值 型 属性 的 主 
要 无 监督 离散 化 方法 是 weka.filters.unsupervised.attribute.Discretize。 它 实现 了 两 种 方法 : 等 
宽 离散 化 (A) 以 及 等 频 离散 化 。 

找到 玻璃 数据 集 glass.arff， 再 将 其 导 和 人 到 Explorer 界面 。 将 无 监督 离散 化 过 滤器 应 用 
到 前 面 解释 过 的 两 种 不 同 模式 。 

练习 17.4.1 比较 得 到 的 直方 图 时 ， 你 观察 到 了 什么 ?等 频 离散 化 对 某 些 属 

性 相当 倾斜 ， 这 是 为 什么 ? 

数值 型 属性 主要 的 有 监督 离散 化 方法 是 weka.filters.supervised.attribute.Discretize。 找 到 
这 尾 花 数据 ， 导 入 该 数据 ， 将 有 监督 离散 化 方法 应 用 到 数据 上 并 查看 相应 的 直方 图 。 有 监 
督 的 离散 化 方法 试图 创建 具有 连续 类 分 布 的 区 间 ， 尽 管 相 邻 区 间 的 类 分 布 有 明显 变化 。 

练习 17. 4.2 观察 得 到 的 直方 图 ， 你 认为 最 有 预测 性 的 属性 是 那个 属性 ? 重 

新 导入 玻璃 数据 集 并 将 有 监督 离散 化 应 用 到 其 上 。 

练习 17.4.3 有 些 属性 在 直方 图 中 仅仅 只 有 一 条 ， 这 意味 着 什么 ? 

离散 化 的 属性 通常 编码 为 名 目 属 性 ， 每 个 区 间 仅 对 应 一 个 值 。 然 而 ， 由 于 取 值 区 间 是 
有 序 的 ， 所 以 离散 化 的 属性 实际 上 是 一 个 等 级 分 类 。 两 种 过 滤器 都 能 通过 将 makeBinary 设 
置 为 true 来 创建 二 值 属性 而 不 是 多 值 属性 。 

练习 17. 4.4 选择 其 中 一 个 过 滤器 并 用 它 创建 一 个 二 值 属性 。 比 较 当 make- 
Binary 为 false 时 所 得 到 的 输出 结果 。 该 二 值 属性 有 怎样 的 表现 ? 


17.4.2 离散 化 的 更 多 方面 





下 面 我 们 查看 离散 化 对 ionosphere.arff 上 创建 J48 决策 树 的 影响 。 该 数据 集 包含 的 是 从 
电离 层 返回 的 雷达 信息 。“ 好 的 ”样本 是 指 电离 层 中 具有 某 种 明显 结构 的 实例 ，“ 坏 的 ” 
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样本 是 直接 通过 电离 层 的 信号 。 为 了 得 到 更 多 细节 ， 可 查看 ARFF 文件 中 的 相关 注释 。 先 
从 无 监督 的 离散 化 开始 。 
练习 17. 4.5 ”对 于 J48 方法 ， 比 较 用 下 面 的 数据 所 产生 树 的 交叉 验证 正确 率 以 
及 尺寸 : 1) 原始 数据 ; 2) 用 默认 的 无 监督 离散 化 方法 离散 得 到 的 数据 ; 3) 用 结 
合 二 值 属 性 后 的 同 种 无 监督 离散 化 方法 离散 后 的 数据 。 
现在 继续 考虑 有 监督 离散 化 方法 。 这 里 出 现 了 一 个 小 问题 ， 在 11. 3 节 末 尾部 分 已 经 
讨论 过 。 如 果 练 习 17. 4. 5 只 是 简单 地 重复 使 用 有 监督 离散 化 方法 ， 那 么 结果 可 能 过 于 乐 
观 。 实 际 上 由 于 选择 的 是 交叉 验证 用 于 评估 ， 在 决定 离散 区 间 时 已 经 考虑 了 测试 集 的 数 
据 ， 因 而 就 无 法 在 新 数据 上 得 到 一 个 公平 的 评估 或 性 能 。 
为 了 更 公平 地 评估 有 监督 离散 化 过 程 ， 选 择 Weka 元 学 习 器 中 的 FileteredClassifier。 该 
学 习 器 仅 使 用 训练 数据 来 构建 过 滤器 ， 然 后 在 测试 数据 上 用 为 训练 数据 计算 的 离散 区 间 进 
行 评 估 。 毕 竟 ， 这 才 是 在 实际 情况 中 处 理 新 数据 该 有 的 过 程 。 
练习 17.4.6 使 用 FilteredClassifier 以 及 JA8, ， 比 较 使 用 下 面 两 种 离散 化 方法 
时 所 产生 的 树 的 交叉 验证 准确 率 以 及 尺寸 : 1) 默认 模式 下 有 监督 的 离散 化 ; 2) 
二 值 属 性 有 监督 的 离散 化 。 
练习 17.4.7 将 这 些 与 从 练习 17.4.5 得 到 的 原始 数据 的 结果 进行 比较 。 从 离散 
化 的 数据 上 产生 的 决策 树 如 何 才能 比 从 原始 数据 上 得 到 的 树 具有 更 好 的 预测 效果 ? 


17.4.3 自动 属性 选择 


在 大 多 数 有 监督 的 学 习 的 实际 应 用 中 ， 并 不 是 所 有 的 属性 都 是 同等 地 用 于 目标 预测 。 
对 于 某 些 学 习 方 案 ， 宛 余 和 不 相关 的 属性 会 导致 不 正确 的 模型 。 用 户 可 以 从 17. 2 节 中 看 
到 ， 手 动 地 从 数据 集中 定义 有 用 的 属性 非常 繁琐 ， 因 而 自动 选择 属性 就 更 合适 。 

属性 选择 方法 可 以 分 为 过 滤器 方法 以 及 包装 器 方法 ( 见 7.1 节 )。 前 者 将 一 个 具有 高 
效 计算 性 能 的 启发 式 算法 应 用 到 属性 子 集 的 度量 上 ， 后 者 则 通过 创建 并 评估 一 个 实际 的 分 
类 器 模型 来 度量 属性 子 集 的 优 劣 ， 该 方法 虽然 更 加 费时 但 性 能 通常 更 优 。 

Explorer 界面 的 选择 属性 面板 可 以 在 数据 集 上 进行 属性 选择 。 默 认 使 用 CfsSubsetEval， 
11.8 节 已 经 做 过 描述 ， 它 可 用 于 属性 子 集 的 评估 。 另 一 种 方法 使 用 一 种 类 似 InfoGainAt- 
tributeEval (11.8 节 ) 的 评估 器 进行 独立 评估 ， 然 后 使 用 特殊 的 “搜索 ”方法 ， 即 11.8 
节 描 述 的 Ranker 方法 ， 进 行 排序 。 

练习 17.4.8 将 排序 方法 应 用 到 labor arff 的 劳务 谈判 数据 上 ， 根 据 信息 增益 

找 出 4 个 最 重要 的 属性 。 

CfsSubsetEval 的 目的 旨 在 其 中 的 属性 与 目标 高 度 相 关 ， 但 相互 之 间 没 有 强 相 关 性 的 属 
性 子 集 。 它 默认 使 用 BestFirst 搜索 方法 在 所 有 可 能 的 属性 子 集 里 寻找 最 “ 佳 的 ” 子 集 。 实 
际 上 ， 使 用 GreedyStepwise 并 将 searchBackwards 设 为 true 可 以 进行 后 向 淘汰 ， 这 也 就 是 在 
17. 2 节 中 用 户 手 动 使 用 的 搜索 方法 。 

为 了 选用 像 CfsSubsetEval 这 样 的 包装 器 方法 而 不 是 过 滤器 方法 ， 首 先 应 选择 Wrapper- 
SubsetEval 然后 对 其 进行 配置 ， 即 选择 一 个 要 应 用 的 学 习 算 法 ， 设 置 在 评估 属性 子 集 时 要 





© 注意 ， 包括 InfoGainAttributeEval 以 及 CfsSubsetEval 在 内 的 大 部 分 评估 器 在 对 数值 型 属性 进行 评估 之 前 ， 都 使 
用 Weka 的 有 监督 的 离散 化 方法 。 
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用 到 的 交叉 验证 折 数 。 
练习 17.4.9 在 相同 的 数据 集 上 运行 CfsSubsetEval ， 使 用 BestFirst 搜索 进行 
基于 关联 的 选择 。 然 后 以 J]48 为 基 学 习 器 运行 包装 方法 ， 这 里 再 次 使 用 BestFirst 
搜索 。 检 查 输出 的 属性 子 集 。 哪 个 属性 是 两 种 方法 都 选中 的 ? 它们 如 何 与 通过 使 
用 信息 增益 进行 排序 得 到 的 结果 相关 联 ? 


17.4.4 自动 属性 选择 的 更 多 方面 


属性 选择 面板 允许 我 们 通过 应 用 属性 选择 方法 ， 更 深刻 地 了 解数 据 集 。 然 而 ， 与 有 监 
督 的 离散 化 一 样 ， 如 果 精 简 后 的 数据 还 要 用 于 模型 测试 (交叉 验证 也 一 样 ) ， 那 么 使 用 这 
些 信 息 来 精简 数据 集 就 会 有 问题 。 原 因 同 样 在 于 ， 在 进行 属性 选择 以 及 使 用 测试 数据 影响 
模型 的 构建 时 ， 我 们 已 经 对 类 标签 有 所 了 解 而 使 得 到 的 准确 率 估计 存在 偏差 。 

这 个 情况 可 以 通过 将 数据 分 为 训练 集 和 测试 集 ， 而 只 把 属性 选择 应 用 到 训练 集 来 避 
免 。 然 而 ， 通 常 使 用 AttributeSelectedClassifier 更 方便 ， 该 分 类 器 是 Weka 的 一 个 元 学 习 器 ， 
它 允 许 指 定 一 个 属性 选择 方法 和 一 个 学 习 算 法 为 分 类 方案 的 一 部 分 。AttributeSelectedClas- 
sifier 可 以 确保 所 选 的 属性 子 集 仅仅 基于 训练 数据 。 

现在 结合 NaiveBayes 来 测试 上 述 3 个 属性 选择 方法 。NaiveBayes 假定 属性 是 独立 的 ， 因 
此 属性 选择 就 十 分 有 益 。 用 户 可 以 使 用 预 处 理 面 板 的 weka.filters.unsupervised.attribute.Copy 过 
滤器 添加 某 个 属性 的 多 个 副本 ， 以 便 查看 宛 余 属 性 的 影响 。 每 个 副本 都 与 原形 极 好 地 关联 
起 来 。 

练习 17. 4. 10 导入 diabete.arff 中 的 糖尿 病 分 类 数据 ， 添 加 第 一 个 属性 的 副 

本 。 每 天 增加 一 个 副本 后 ， 使 用 交叉 验证 度量 NaiveBayes (使 用 useSupervisedDis- 

cretization) 的 性 能 。 你 观察 到 了 什么 ? 

上 述 3 种 属性 选择 方法 与 AttributeSelectedClassifier 以 及 NaiveBayes 一 起 使 用 ， 能 够 成 功 
地 排除 宛 余 属性 吗 ” 与 AttributeSelectedClassifier 一 起 运行 每 个 方法 查看 交叉 验证 准确 率 的 影 
响 ， 并 检查 每 个 方法 所 选 的 属性 子 集 。 注 意 ， 要 使 用 Ranker 方法 必须 先 指 定 排 序 属 性 的 个 
数 。 由 于 原 糖 尿 病 数据 包含 8 个 属性 (类 标 除外 ) ， 所 以 将 该 个 数 设 为 8。 指 定 NaiveBayes 为 
包装 器 方法 内 部 使 用 的 分 类 器 ， 因 为 该 分 类 器 是 我 们 想 要 用 于 进行 子 集 选 择 的 分 类 器 。 

练习 17.4.11 关于 3 种 属性 选择 方法 的 性 能 ， 你 能 说 些 什么 ? 它们 都 能 成 

功 地 排除 元 余 属 性 副本 吗 ? 如 果 不 能 ， 为 什么 ? 


17.4.5 自动 参数 调整 


许多 学 习 算 法 都 有 影响 学 习 结 果 的 参数 ， 例 如 C4.5 决策 树 学 习 器 就 有 两 个 参数 影响 
RAR (其 中 一 个 ，17.3 节 中 叶子 结 点 所 需 实例 的 最 小 数量 ) 。k 近邻 分 类 器 IBk 有 一 
个 用 于 设置 邻居 个 数 的 参数 。 然 而 ， 与 像 手动 选择 属性 一 样 ， 手 动 调整 参数 非常 繁琐 同时 
呈现 出 同样 的 问题 : 测试 数据 一 定 不 能 用 于 参数 选择 ; 否则 ， 人 性 能 评估 就 会 存在 偏差 。 

Weka 的 元 学 习 器 CVParameterSelection 在 训练 数据 上 优化 交叉 验证 准确 率 进 行 最 佳 参 
数 选择 。 默 认 情 况 下 ， 每 个 子 集 用 10 折 交 叉 验 证 评估 。 优 化 的 参数 在 通用 对 象 编辑 器 面 
板 中 使 用 CVParameters 域 指定 。 每 个 参数 有 3 条 信息 需要 提供 : 0) 用 于 命名 的 字符 串 ， 
使 用 字母 编码 (可 在 相应 分 类 器 的 Javadoc 中 找到 ， 见 14.2 45); 2) 评估 值 的 数值 区 间 ; 
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3) 在 该 区 间 中 尝试 的 步骤 数 ( 注 意 ， 假 定 参 数 都 为 数值 型 )。 单 击 通 用 对 象 编辑 器 窗口 
的 More 按钮 可 以 获得 更 多 信息 以 及 一 个 例子 。 

对 于 前 面 用 到 的 糖尿 病 数据 ， 使 用 CVParemeterSelection 与 IBk 一 起 为 邻居 个 数 选择 最 
佳 值 ， 范 围 从 1~10 共 10 步 。 邻 居 个 数 的 字母 编码 为 K。 参 数 调 整 以 后 的 IBk， 其 交叉 验 
证 准确 率 可 以 直接 与 用 默认 设置 得 到 的 准确 率 相 比 较 ， 这 是 因为 调整 过 程 就 是 通过 应 用 内 
部 交叉 验证 来 为 每 个 出 现在 交叉 验证 输出 中 的 训练 集 寻 找 最 佳 参数 值 ， 只 不 过 后 者 形成 了 
最 后 的 性 能 评估 。 

练习 17.4.12 每 种 情况 下 的 准确 率 各 为 多 少 ? 基于 完整 数据 集 上 的 交叉 验 

证 ， 所 选择 的 调整 参数 的 值 是 多 少 ? (注意 : 正如 前 面 提 到 的 一 样 ， 由 于 输出 模 

型 是 在 完整 数据 上 构建 的 模型 ， 所 以 该 值 输出 在 分 类 器 输出 文本 区 域 中 。) 

现在 考虑 J 的 参数 调整 。 若 CVParameter 域 中 有 一 个 以 上 的 参数 字符 ，CVParame- 
terSelection 则 会 同时 执行 一 个 网 格 搜索 。 剪 枝 置信 和 度 参数 的 字母 代码 为 C， 值 的 范围 为 
0.1 ~0.5 执行 5 步 。 最 小 叶子 大 小 的 参数 代码 为 M， 值 的 范围 为 1~10 3: 10 步 。 

练习 17. 4. 13 运行 CVParameterSelection 寻找 最 佳 参 数值 。 将 你 得 到 的 输出 
与 默认 设置 的 148 所 得 结果 相 比较 。 准 确 率 发 生变 化 了 吗 ? 树 的 大 小 是 多 少 ? 
CVParameterSelection 为 完整 数据 集 上 产生 的 模型 所 选 的 参数 值 是 多 少 ? 


17.5 文档 分 类 


下 面 是 一 些 文档 分 类 的 实验 。 原 始 数据 为 文本 ， 首 先 将 其 转换 为 适合 学 习 的 形式 ， 转 
换 方 法 是 从 训练 语料库 的 所 有 文档 中 创建 一 个 词 条 字典 ， 使 用 Weka 的 无 监督 的 属性 过 滤 
ait StringToWordVector 为 每 个 词 条 建立 一 个 数值 型 属性 。 这 里 也 有 类 标 属 性 ， 它 给 出 了 文 
档 的 类 标 。 


17.5.1 包含 字符 串 属性 的 数据 


StringToWordVector 过 滤器 假定 文档 文本 存储 于 一 个 字符 串 类 型 的 属性 中 ， 也 就 是 一 个 
没有 预先 指定 取 值 集合 的 名 目 属性 。 在 过 滤 后 的 数据 中 被 替换 为 一 个 数值 型 属性 的 混合 集 
合 ， 类 标 属 性 作为 第 一 个 属性 在 开始 时 给 出 。 

要 执行 文档 分 类 ， 首 先 创建 一 个 带 有 字符 串 属性 的 ARFF 文件 ， 字 符 串 属性 包含 了 文 
档 文 本 ， 使 用 @ attribute document string 在 ARFF 文件 的 文件 头 中 给 出 ， 其 中 document 是 属 
性 名 。 同 时 还 需要 一 个 名 目 属 性 来 表示 文档 类 别 。 

练习 17.5.1 从 表 17-4 中 标号 的 最 小 文档 中 创建 一 个 ARFF 文件 ， 在 该 数 

据 上 使 用 默认 设置 运行 StringToWordVector。 共 产生 多 少 个 属性 ? 将 选项 minTerm- 

Freq 的 值 改 为 2。 现 在 产生 的 属性 又 为 多 少 个 ? 

表 17-4 训练 文档 
文档 文本 
原油 价格 发 生 了 巨大 上 涨 
原油 供不应求 
有 些 人 不 喜欢 橄榄 油 的 味道 
食物 很 油腻 
原油 供应 短缺 
在 前 锅 内 使 用 少许 食用 油 
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练习 17.5.2 从 你 所 得 到 的 最 后 一 个 版 本 数据 上 创建 一 个 JA8 决策 树 。 

练习 17.5.3 用 从 表 17-4 中 得 到 的 文档 所 产生 的 决策 树 将 表 17-5 的 新 文档 
进行 分 类 。 为 了 将 同样 的 分 类 器 同时 用 到 训练 和 测试 文档 中 ， 使 用 FilteredClassi- 
fier， 选 定 StringToWordVector 过 滤器 以 及 J48 为 基 分 类 器 。 从 表 17-5 中 创建 一 个 
ARFF 文件 ， 用 问号 标记 缺失 的 类 标 。 使 用 默认 选项 为 StringToWordVector 以 及 
J48 配置 FilteredClassifier， 选 定 新 创建 的 ARFF 文件 为 测试 集 。 确 保 分 类 器 面板 
中 More options 下 方 的 Output predictions 是 选中 的 。 然 后 看 到 模型 及 其 产生 的 预测 
结果 ， 证 实 它们 是 一 致 的 。 预 测 结果 是 什么 ? 





表 17-5 测试 文档 
文档 文本 分 类 
炼油 平台 提取 原油 未 知 
菜 籽 油 应 该 是 健康 的 未 知 
伊拉克 拥有 巨大 的 石油 储备 ES 
食用 油 有 许多 不 同 种 类 未 知 


17.5.2 实际 文档 文 类 


一 个 标准 新 闻 文章 集 已 经 广泛 用 于 文档 分 类 器 的 评估 。ReutersCom- train.arff 以 及 Reu- 
tersGrain- train.arff 是 两 个 源 自 该 文集 的 训练 集 ，ReutersCorn-test.arff 以 及 ReutersGrain- test.arff 
则 是 相应 的 测试 集 。 玉 米 和 稻谷 的 实际 文档 是 一 样 的 ， 只 有 类 标 不 同 。 在 第 一 个 数据 集中 ， 
考虑 了 玉米 相关 问题 的 文章 类 标 值 为 1， 其 他 为 0。 目的 是 创建 一 个 可 以 识别 “玉米 的 ”文章 
的 分 类 器 。 在 第 二 个 数据 集中 ， 类 标 则 依据 稻谷 相关 的 问题 ， 目 标 是 识别 “稻谷 的 ”文章 。 

练习 17.5.4 ”分别 使 用 1) J48; 2) NaiveBayesMultinomial, ， 应 用 带 String- 

ToWordVector 的 FilteredClassifier 两 个 训练 集 创 建 分 类 器 ， 对 两 种 情况 分 别 在 相应 

的 测试 集 上 进行 评估 。4 种 情况 下 得 到 的 正确 分 类 百分比 分 别 为 多 少 ? 基于 该 结 

果 ， 你 应 该 选择 那个 分 类 器 ? 

除 正 确 分 类 的 百分比 外 ， 还 有 其 他 的 度量 也 可 以 用 于 文档 分 类 : 真正 例 的 个 数 (True 
Pisitives, TP), 、 假 正 例 的 个 数 (False Positives，FP)、 真 负 例 的 个 数 (True Negtives, 
TN) 、 假 负 例 的 个 数 (False Negtives, FN), Weka 的 输出 统计 量 计 算 如 表 5-7 Bros, F HE 
量 也 在 5.7 中 提 到 。 

练习 17.5.5 根据 表 5-7 中 的 公式 ， 每 个 输出 统计 量 的 最 佳 可 能 值 是 多 少 ? 
描述 何 时 能 取得 这 些 值 。 

分 类 器 输出 还 给 出 了 ROC 曲线 (也 叫做 AUC 曲线 ) ， 如 5.7 节 中 所 述 ， 它 表示 根据 
分 类 器 得 到 的 排序 ， 测 试 数据 中 随机 选择 的 正 例 排 在 随机 选择 的 负 例 之 上 的 概率 。 最 好 的 
结果 是 所 有 的 正 例 都 排 在 负 例 之 上 ， 这 时 AUC 为 1。 最 坏 的 情况 就 是 排序 基本 上 是 随机 
的 ， 此 时 AUC 为 0.5， 若 该 值 显著 地 小 于 0. 5， 则 该 分 类 器 是 反 学 习 的 (anti-learning)! 

练习 17.5.6 上 面 用 到 的 两 个 分 类 器 中 ， 哪 个 为 两 个 路 透 社 数据 集 产生 了 最 

好 的 AUC 值 ? 将 该 值 与 准确 率 百 分 比 相 比较 。 不 同 的 输出 意味 着 什么 ? 

5.7 节 中 所 述 的 ROC 曲线 可 以 通过 右 击 结果 列表 中 的 任何 一 个 条 目 得 到 ， 然 后 选择 
Visualize threshold curve。 这 样 就 得 到 一 幅 以 FP 比率 为 x 轴 ，TP 比率 为 y 轴 的 图 。 根 据 所 
使 用 的 分 类 器 ， 该 图 可 以 十 分 光滑 也 可 能 相当 不 规则 。 
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练习 17.5.7 对 于 在 练习 17.5.6 中 产生 了 极 大 区 别 的 路 透 社 数据 集 ， 查 看 
其 类 别 1 的 ROC 曲线 ， 对 其 曲线 下 面积 做 一 个 粗略 的 评估 ， 并 用 文字 做 出 解释 。 
练习 17.5.8 完美 性 能 情况 下 的 理想 ROC 曲线 是 怎样 的 ? 
除了 上 面 所 述 之 外 ， 还 可 绘制 其 他 类 型 的 阔 值 曲线 ， 如 以 召回 率 为 x 轴 、 准 确 率 为 7 
轴 的 准确 率 - 召回 率 曲线 。 
练习 17.5.9 改变 坐标 轴 以 获得 准确 率 - 召回 率 曲线 。 完 美 性 能 下 的 理想 准 
确 率 - 召回 率 曲线 是 怎样 的 ? 


17.5.3 探索 StringToWordVector 过 滤器 


默认 情况 下 ，StringToWordVector 过 滤器 根据 词 是 否 在 文档 中 出 现 ， 简 单 地 令 所 有 单个 
词 的 字段 在 转化 后 的 数据 集中 对 应 的 属性 值 为 1 或 0。 实 际 上 正如 11. 3 节 所 提 及 ， 该 过 滤 
器 有 许多 选项 : 

© outputWordCounts 决定 输出 的 实际 单词 数 。 

e IDFTransform 和 TFTransform: 两 者 都 设 为 true It, idee He TF x IDF fü. 

e stemmer 提供 不 同 词 干 提取 算法 的 选择 。 

e useStopList 人 允许 用 户 决定 是 否 删除 停 用 词 。 

© tokenizer 允许 使 用 不 同 分 词 器 产生 字段 ， 比 如 使 用 一 个 产生 元 词 的 分 词 器 而 不 
是 产生 单个 词 的 分 词 器 。 

分 类 器 还 存在 其 他 有 用 的 选项 。 要 得 到 更 多 信息 ， 单 击 通用 对 象 编辑 器 窗口 的 More 按钮 。 

练习 17.5.10 利用 可 用 的 选项 进行 实验 。 使 用 NaiveBayesMultinomial 作为 

分 类 器 时 ， 哪 个 选项 可 以 为 上 面 两 个 数据 集 给 出 好 的 AUC. 曲线 ? 

在 进行 文档 分 类 时 ， 并 不 是 每 个 属性 ( 即 字 段 ) 都 是 至 关 重 要 的 。 原 因 在 于 许多 单词 
对 于 决定 文章 的 主题 是 不 相关 的 。Weka 的 AttributeSelectedClassifier 使 用 带 InfoGainAttribu- 
teEval 的 排名 以 及 Ranker 搜索 ， 可 以 淘汰 不 太 有 用 的 属性 。 如 前 所 述 ，FilteredClassifier 应 
该 首先 对 数据 进行 转换 ， 再 将 其 通过 AttributeSelectedClassifier, 

练习 17.5.11 使 用 默认 选项 的 StringToWordVector 以 及 NaiveByesMultinomial 

作为 分 类 器 进行 实验 。 改 变 包 含 信息 最 大 的 属性 集 个 数 ， 这 些 属性 通过 修改 

Ranker 中 numToselect 域 的 值 从 基于 信息 增益 的 排名 中 选择 得 到 。 记 录 你 所 获得 

的 AUC 值 。 前 面 讨论 的 两 个 数据 集 最 佳 AUC 值 对 应 的 属性 有 多 少 个 ? 你 计划 得 

到 的 最 佳 AUC 值 为 多 少 ? 


17.6 挖掘 关联 规则 


为 了 得 到 一 些 与 关联 规则 相关 的 经 验 ， 接 下 来 我 们 采用 4. 5 节 所 述 的 Apriori 进行 实 
验 。 用 户 会 发 现 ， 使 用 Apriori 来 抽取 有 用 信息 是 十 分 困难 的 。 





17.6.1 关联 规则 挖掘 


下 面 开 始 从 17. 1 节 中 所 用 的 weather.niminal. arff 数据 中 挖掘 规则 以 获得 一 些 应 用 Apri- 
ori 的 感觉 。 注 意 ， 该 算法 期 望 数据 都 是 名 目 型 的 : 如 果 有 数值 型 属性 出 现 ， 则 必须 首先 
对 它 进行 离散 化 。 在 预 处 理 面板 导 人 数据 以 后 ， 在 Associate 面板 单 击 Start 按钮 开始 运行 
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Aporiori ， 使 用 默认 选项 。 结 果 输 出 了 10 条 规则 ， 根 据 每 条 规则 后 括号 中 的 置信 和 度 度 量 
(如 图 11-16 所 示 ) 进行 排序 。 正 如 我 们 在 第 11 章 中 所 解释 的 一 样 ， 规 则 前 件 后 面 的 数字 
表示 满足 该 前 件 条 件 的 实例 数目 ， 结 论 后 的 数字 则 表示 满足 整 条 规则 的 实例 数目 〈 即 规则 
的 “支持 度 ”)。 由 于 10 条 规则 中 这 两 个 数字 都 是 相等 的 ， 所 以 每 条 规则 的 置信 度 都 为 1。 

实际 上 要 找到 最 满意 结果 的 最 小 支持 度 以 及 置信 度 比 较 繁琐 。 因 此 ， 正 如 在 第 11 章 
所 解释 的 一 样 ，Weka 的 Apriori 运行 了 多 次 基本 算法 。 它 使 用 与 minMetric 参数 给 定 的 相同 
的 用 户 指定 的 最 小 置信 和 度 。 支 持 度 水 平 表示 为 实例 总 个 数 的 比例 (天 气 数据 的 例子 中 是 
14) ， 即 一 个 0~1 之 间 的 比率 。 最 小 支持 度 水 平 从 一 个 定 值 开 始 (upperBoundMinSupport， 
默认 为 1.0)。 每 次 迭代 支持 度 都 会 增加 一 个 固定 的 量 (delta, SAX 0.05, 实例 的 5% ) 
直到 规则 的 某 个 值 已 经 得 到 (numRules, RU 10 条 规则 ) 或 者 支持 度 达 到 一 个 确定 的 
“最 小 最 小 ”的 水 平 (lowerBoundMinSupport, SRA X 0.1), ， 这 是 由 于 将 规则 应 用 到 少 于 
10% 的 数据 集 上 ， 规 则 会 逐渐 变 得 没有 意义 。 这 4 条 规则 都 可 以 由 用 户 指定 。 

上 面 的 过 程 听 起 来 十 分 复杂 ， 因 此 我 们 来 查看 一 起 天 气 数据 所 发 生 的 变化 。 关 联 器 的 
输出 文本 域 显示 算法 产生 了 10 条 规则 。 这 是 基于 0.9 的 最 小 置信 度 水 平 ， 这 是 默认 值 并 
且 输 出 已 经 给 出 。Number of cycles performed 显示 值 为 17， 它 表示 Apriori 实际 上 运行 了 17 
次 才 产 生 这 些 规则 ， 对 应 17 个 不 同 的 最 小 支持 度 。 与 得 到 结果 相对 应 的 最 后 的 值 是 0. 15 
(相当 于 0.15 x 14 2 个 实例 ) 。 

通过 查看 通用 对 象 编辑 器 窗口 的 选项 ， 用 户 可 以 看 到 最 小 支持 度 (upperBoundMinSup- 
port) 的 初始 值 默 认为 1，delta 是 0.05。 现 在 有 1 -17 x0. 0.5 =0.15， 因 此 就 解释 了 为 什 
4 17 次 迭代 之 后 最 小 支持 度 的 值 为 0. 135。 注意， 在 基本 Apriori 算法 首次 运行 之 前 upper- 
BoundMinSupport 因 delta 而 有 所 减少 。 

关联 器 输出 文本 域 同时 还 展示 了 根据 最 后 的 最 小 支持 度 值 (本 例 中 为 0.15) 所 找到 
频繁 项 集 的 个 数 。 本 例 中 ， 给 定 最 小 支持 度 为 2 个 实例 ， 共 找到 12 个 大 小 为 1 的 项 集 、 
47 个 大 小 为 2 的 项 集 、39 个 大 小 为 3 的 项 集 以 及 6 个 大 小 为 4 的 项 集 。 通 过 在 运行 算法 之 
前 设置 outputItemSets 为 true 可 以 显示 所 有 项 集 以 及 其 支持 的 实例 个 数 。 试 着 实现 该 过 程 ! 

练习 17.6.1 根据 输出 结果 ， 该 项 集 的 支持 度 为 多 少 ? 

outlook = rainy humidity = normal windy = FALSE play = yes 

练习 17. 6.2 假如 想 要 得 到 所 有 具有 特定 置信 和 度 以 及 最 小 支持 度 的 规则 。 该 
过 程 可 以 通过 选择 合适 的 minMetric 、lowerBoundMinSupport 以 及 numRules 实现 。 
在 天 气 数据 上 对 应 表 17-6 所 示 值 的 各 种 组 合 情 况 ， 可 能 的 规则 总 数 分 别 为 多 少 ? 


表 17-6 不 同 的 最 小 置信 和 度 和 支持 度 对 应 的 规则 个 数 








最 小 置信 度 最 小 支持 度 规则 个 数 
0.9 0.3 
0.9 0.2 
0.9 0.1 
0.8 0.3 
0.8 0.2 
0.8 0.1 
0.7 0.3 
0.7 0.2 
0.7 0.1 
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Apriori 有 更 高 级 的 参数 。 若 significanceLeve 设置 为 0 ~1 之 间 的 值 ， 则 关联 规则 将 以 
给 定 置信 度 水 平 为 参数 的 卡 方 检验 过 滤 。 然 而 ， 在 这 个 情况 下 应 用 一 个 显著 性 测试 还 有 问 
题 ， 因 为 这 里 存在 多 个 比较 问题 : 如 果 一 个 测试 已 经 为 成 百 上 千 的 关联 规则 执行 过 几 百 
次 ， 那么 很 可 能 所 发 现 的 显著 影响 就 是 一 个 偶然 事件 ， 也 就 是 说 ， 一 条 关联 规则 看 起 来 是 
统计 显著 的 ， 但 实际 不 是 。 同 时 ， 方 法 检验 对 小 样本 尺寸 并 不 准确 (本文 情 况 ， 就 是 小 的 
支持 度 )。 

还 有 一 种 对 规则 进行 排序 的 方法 。 与 置信 和 度 一 样 ，Apriori 支持 lift, average 以 及 con- 
viction, ， 这 些 可 以 使 用 metricType 进行 选择 。 单 击 通用 对 象 编辑 窗口 上 的 More 按钮 可 以 得 
到 更 详细 的 信息 。 

练习 17. 6.3 分 别 逐 一 使 用 4 种 规则 排序 度量 在 天 气 数 据 上 运行 Apriori ， 其 

他 都 用 默认 设置 。 每 种 度量 方式 下 排名 最 靠 前 的 规则 分 别 是 什么 ? 


17.6.2 挖掘 一 个 真实 的 数据 集 


现在 我 们 来 考虑 一 个 真实 的 数据 集 vote.arff， 该 数据 集 包 含 了 20 世纪 80 年 代 中 期 美国 
国会 议员 针对 16 个 关键 问题 提出 的 435 个 投票 ， 同 时 也 包括 一 个 二 值 属性 表示 议员 的 党 
派 关系 。 这 是 一 个 包含 缺失 值 (对 应 弃权 ) 的 纯 名 目 型 数据 集 。 通 常 该 问题 被 视 为 一 个 分 
类 问题 ， 任 务 就 是 根据 投票 模式 预测 其 党 派 关 系 。 实 际 上 关联 规则 挖掘 同样 可 以 应 用 到 该 
数据 集 ， 以 便 发 现 有 趣 的 关联 。 有 关 数 据 的 更 多 信息 在 ARFF 文件 的 注释 中 。 
练习 17. 6.4 使 用 默认 设置 在 该 数据 集 上 运行 Apriori。 对 得 到 的 规则 做 出 评 
论 。 其 中 的 几 个 规则 十 分 类 似 。 其 支持 度 与 置信 度 是 如 何 关联 起 来 的 ? 
练习 17.6.5 实验 存在 有 一 个 有 趣 的 现象 ， 即 没有 一 个 规则 包含 Class = re- 
publication。 你 认为 这 是 为 什么 ? 


17.6.3 购物 篮 分 析 


在 1.3 节 中 我 们 介绍 了 购物 篮 分 析 ， 通 过 从 顾客 在 某 商 店 购买 商品 项 集中 寻找 关联 性 
来 分 析 顾客 的 购买 习惯 。 要 在 Weka 中 进行 购物 篮 分 析 ， 每 个 交易 需 编 码 为 一 条 实例 ， 其 
属性 表示 商店 中 的 商品 项 目 。 每 个 属性 只 有 唯一 的 值 : 若 某 交易 不 包含 它 〈 即 顾客 没有 购 
买 该 商品 项 目 ) ， 该 值 为 缺失 。 

你 的 任务 就 是 挖掘 购物 账单 数据 中 的 关联 。Supermarket arff 中 的 数据 从 一 个 真实 的 新 
西 兰 超市 搜集 得 到 。 使 用 文本 编辑 器 查看 该 文件 确保 你 已 经 了 解 该 数据 的 结构 。 本 练习 的 
重点 就 是 向 你 展示 从 这 种 类 型 的 数据 中 找到 一 个 有 趣 的 模式 究竟 有 多 难 。 

练习 17. 6.6 使 用 Apriori 进行 实验 ， 研 究 前 面 所 述 的 各 种 参数 对 其 的 影响 。 
形成 一 个 简单 的 报告 展示 你 在 调查 中 的 主要 发 现 。 
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in Weka (Weka 中 ) , 474-479 
Bagging algorithm (Bagging 算法 ) , 474, 475t 
bags (48), 141-142 
class label (类 标 ) 142-143 
instance (实例 ) joining (连接 ) 300 
positive ( 正 例 ) , 301-302 
positive probability ( 正 例 概率 ) 302 
balanced iterative reducing and clustering using hierar- 
chies ( BIRCH， 基 于 层次 的 平衡 迭代 约 减 和 
RX), 293 
Balanced Winnow (平衡 的 Winnow) , 131 
ball trees (EKA) , 135 
in finding nearest neighbor (寻找 最 近邻 ) 136 
illustrated (示例 图 ) 136f 
nodes ( 结 点 ) 135-136 
splitting method ( 分裂 方 法 ) , 136-137 
two cluster center (两 个 聚 类 中 心 ) ，141f 
batch learning (批量 学 习 ) ，238b-239b 
Bayes Information Criterion ( Jl 叶 斯 信息 准则 ) 293 
Bayesian clustering ( 贝 叶 斯 聚 类 ) , 290-292 
AutoClass，291 
DensiTree，292 ，292f 
hierarchical (层次 ) ，292 
Bayesian multinet ( 贝 叶 斯 复 网 ) 270 
Bayesian network ( 贝 叶 斯 网 络 ) , 143, 261-273 
algorithm (算法 ) 268-270 


434 & 5] 





AD tree (AD $f), 270-272, 271f 
conditional independence (条 件 独立 性 ) 264-266 
data structures for fast learning (用 于 快速 学 习 
的 数据 结构 ) 270-272 
example illustration (示例 图 ) , 263f, 265f 
K2 algorithm (K2 算法 ) 273 
learning (学 习 ) 266-268 
making predictions (做 出 预测 ) 262-266 
Markov blanket (马尔 可 夫 毯 ) ，269 
prior distribution over network structure (网 络 结 
构 的 先 验 分 布 ) 268 
structure learning by conditional independence 
test. (条 件 独 立 测 试 的 结构 学 习 ) 270 
TAN, 269 
visualization example ( 可视化 例子 ) , 454f 
BayesianLogisticRegression algorithm ( BayesianLogis- 
ticRegression 算法 ) , 446t-450t, 453 
BayesNetalgorithm, 446t-450t, 453 
beam search (3818 2x), 312 
Bernoulli process (〈 伯 努 利 过 程 ) 150 
BestFirstmethod ，490t，492 
best-first search ( 最 佳 优先 搜索 ) 312 
BFTreealgorithm ( BFTree 算法 ) , 446t-450t, 456 
bias (偏差 ) 31-33 
language (语言 ) 31-32 
multilayer perceptron (多 层 感知 机 ) , 233 
overfitting- avoidance (避免 过 度 拟 合 ) 32-33 
search (搜索 ) ，32 
bias- variance decomposition (偏差 -方差 分 解 )， 
353-355 
binary classification problem (二 元 分 类 问题 ) , 63 
BIRCH, 见 balanced iterative reducing and clustering 
using hierarchies 
bits (位 ) 100-101 
Boolean attribute (布尔 属性 ) 51 
Boolean class (布尔 类 ) 71-72 
boosting (提升 ) 358-362 
AdaBoost, 358-361 
algorithm for (算法 ) 359-360, 359f 
classifier (分 类 器 ) , 362 
in computational learning theory (计算 学 习 理 
论 ) 361 
decision stump (决策 桩 ) 362 
forward stagewise additive modeling (前 向 逐步 


累加 模型 ) ，362 

power of (威力 ) ，361-362 

in Weka (Weka 中 ), 476-477 
bootstrap (自助 法 ) 155-156 
bootstrap aggregating ( 自助 聚集 ) Jl bagging 
Boundary Visualizer (边界 可 视 化 器 ) 571, 574 
buildClassifier () method ( buildClassifier () 方法 )， 

537-538, 540, 555 


C 


C4.5, 108, 198b, 201-202, 307-308 
functioning of (功能 ) 201 
MDL-based adjustment (基于 MDL 的 调整 ) ， 

201-202 

C5.0, 254-255 

calibration ( E ?fE) , class probability (类 概率 )， 
343-346 
discretization- based (基于 离散 化 的 ) 345 
logistic regression (Logistic 回归 ) , 346 
PAV-based (基于 PAV Bj), 345-346 

Capabilities class (Capabilities 2&6) , 540, 556-557 

CAPPS, JL Computer- Assisted Passenger Prescreening 
System 

CART system (CART 系统 ) 192, 261, 456 
cost- complexity pruning (4È ffr — & AR BE BY 

B), 202 

categorical attribute (类 别 属 性 ) J nominal attrib- 
utes 

category utility (分 类 效用 ) , 273, 284-285 
calculation (计算 ) 284b-285b 
incremental clustering ( 增 量 聚 类 ) 279, 281 

causal relation (因果 关系 ) ，384 

CBA technique (CBA 技术 ) ，223 

Center filter (Center 过 滤器 ) , 433t-435t, 437 

CfsSubsetEval method ( CfsSubsetEval 方 法 )， 
488, 489t 

chain rule ( 链 式 法 则 ) , 342-343 

ChangeDateFormat filter ( ChangeDateFormat 过 滤 
器 ) 433t-435t, 440 

ChiSquaredAttributeEval, 489t, 491 

circular ordering (循环 的 顺序 ) 51 

CitationKNN algorithm ( CitationKNN 算 法 ) 446t- 
450t，473 
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class boundaries (类 边界 ) 
non- axis parallel (不 平行 于 坐标 轴 的 ) 250 
rectangular (矩形 的 ) , 248, 249f 
class labels (类 标 ) 
bags (48), 142-143 
reliability (可 靠 性 ) 377-378 
class noise (类 了 噪声) 568 
class probability estimation (类 概率 估计 ) ，337 
dataset with two classes (有 两 个 类 的 数据 集 ) , 
344, 344f 
difficulty (困难 性 ) , 343-344 
overoptimistic (过 于 乐观 的 ) , 344 
ClassAssigner component ( ClassAssigner 组 件 ) 495, 
499-500, ，499t 
ClassAssigner filter ( ClassAssigner 过 滤器 ) 433t- 
4351, 438 
classes (类 ) 40 
Boolean (布尔 型 ) 71-72 
membership functions for (隶属 函数 ) 125 
rectangular (和 矩形 ) 248, 249f 
in Weka (Weka 中 ) 520 
classification (分 类 ) , 40 
clustering for ( RÆ), 294-296 
cost-sensitive (成 本 敏感 ) 166-167, 356 
document (文档 ) ，387-388 
k- nearest- neighbor (k RIER), 78 
Naive Bayes for (朴素 贝 叶 斯 ) 97-98 
nearest-neighbor (最 近邻 ) 78 
one-class ( 单 类 ) 335 
pairwise (成 对 ) 339 
classification boundary (分 类 边界 ) ，571-574 
IR visualization (1R 可 视 化 )，571-572 
decision tree visualization ( 可视化 决策 树 ) 573 
Naive Bayes visualization (可 视 化 朴素 贝 叶 
Hp), 573 
nearest- neighbor visualization (可 视 化 最 近 
^B), 572 
rule sets visualization ( 可视化 规则 集 ) 573 
classification learning (分 类 学 习 ) , 40 
classification rule (分 类 规则 ) , 11, 62, Jù rules 
accuracy (准确 率 ) , 205 
antecedent of (的 前 件 ) 69 
criteria for choosing test (选择 测试 的 标准 ) , 
203-204 


disjunctive normal form ( 析 取 范式 ) 71-72 
with exceptions ( 带 有 例外 的 ) , 73, 194 
exclusive-or (3%), 70, 70f 
global optimization (全 局 优化 ) 208 
good rule generation (生成 好 的 规则 ) ，205-208 
missing values (缺失 值 ) 204-205 
multiple (多 个 ) ，71 
numeric attribute (数值 属性 ) ，205 
from partial decision tree (从 局 部 决策 树 )， 
208-212 
producing with covering algorithm (用 覆盖 算法 
生成 ) 205 
pruning ( 剪 枝 ) 206 
replicated subtree (重复 子 树 ) 69, 71f 
RIPPER rule learner ( RIPPER 规则 学 习 器 ) , 
208, 209f, 215 
ClassificationViaClustering algorithm ( Classification- 
ViaClustering 算法 ) , 4751, 479 
ClassificationViaRegression algorithm  ( Classification- 
ViaRegression 算法 ) , 4751, 479 
Classifier class (Classifier 类 ) , 539, 549, 553-555 
ClassifierPerformanceEvaluator, 495- 496, 499- 502, 
499t 
classifiers package (classifier 包 ) , 519-520 
classifiers (Weka) (分 类 器 (Weka)), 526 
capabilities (能 力 ) 555-557 
implementation convention (实现 有 关 的 惯例 ) , 
555-557 
ClassifierSubsetEval method ( ClassifierSubsetEval 77 
iX), 488, 489t, 493 
Classify panel (Classify 面板 ) , 422-424, 562-565 
with C4. 5 algorithm (C4. 5 算法 ) 562-563 
classification error visualization (可 视 化 分 类 错 
误 ) ，565 
output interpretation (解释 输出 ) 563-564 
setting test method ( 设 定 测试 方法 ) 565 
classifyInstance() method ( classifyInstance () 方法 )， 
549-550 
classifyMessage() method ( classifyMessage () 方法 )， 
537-538 
ClassOrder filter ( ClassOrder 过 滤器 ) , 444, 444t 
ClassValuePicker, 499-500, 499t 
CLI, J command-line interface 


CLOPE algorithm ( CLOPE 5X3) , 480t, 483 
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closed- world assumption (封闭 世界 假定 )，43， 
71-72 
CLOSET + algorithm (CLOSET + 算法 ) ，223 
ClustererPerformanceEvaluator, 499-500, 499t 
clustering (RÆ), 40, 89 
agglomerative (凝结 ) 273, 275-276 
algorithms (算法 ) 81, 89 
Bayesian ( Jl @t+i§f) , 290-292 
category utility (分 类 效用 ) , 273 
for classification (用 于 分 类 ) , 294-296 
document (文档 ) 387 
EM algorithm ( EM 算法 ) 287 
evaluation (评估 ) , 186 
group-average (组 平均 ) 276 
in grouping item (将 项 聚集 在 一 起 ) 41 
hierarchical (层次 的 )，274-279 
incremental ( 增 量 的 )，279-284 
iterative distance-based (基于 距离 的 迭代 ) 139 
k-mean (上 均值 )，139-140 
MDL principle application to (MDL 原理 应 用 
F), 186-187 
number of cluster ( 聚 类 个 数 ) 274 
probability-based (基于 概率 的 ) ，285-286 
representation (表示 方法 ) 82f 
stage following ( 接 下 来 的 步骤 ) 81 
statistica (Ziti), 314-315 
in Weka (Weka 中 ) ，429 
Weka algorithms ( Weka 算法 ) , 480-485 
ClusterMembership filter ( ClusterMembership it jf 
器 ) 433t-435t, 436-437 
Cobweb algorithm ( Cobweb 算 法 ), 429, 480, 
480t, 483 
co-EM, 297 
column separation ( 列 分 隔 ) , 340-341 
combining classifier (组 合 分 类 器 ) in Weka (We- 
ka rH) 477 
command-line interface (CLI， 命 令 行 界面 ) 519- 
530， 见 Weka 
generic option (通用 选项 ) , 526-529 
options (选项 ) 526-529 
package (£21), 519 
scheme-specific option (与 具体 方案 相关 的 选 
X), 528t, 529 
starting up (启动 ) 519 


weka. associations package ( weka. associations 
包 ) 525 
weka. attributeSelection package (weka. attribute- 
Selection 包 ) , 525 
weka. classifiers package ( weka. classifiers J) , 
523-525 
weka. clusterers package ( weka. clusterers 包 ) ， 
525 
weka. core package (weka. core 包 ) , 520-523 
weka. datagenerators package ( weka. datagenera- 
tors J), 525 
weka. estimators package ( weka. estimators 包 ) , 
525 
weka. filters package (weka. filters 包 ), 525 
comma-separated value (CSV, 3g 4) ff (Ei ) 
data files (数据 文件 ) 408 
example data ( 样 例 数据 ) 409f 
format (格式 ) ，407 
ComplementNaiveBayes algorithm ( ComplementNaive- 
Bayes 算法 ) , 4461-450t 
complete-linkage method (完全 链接 方法 ) 275 
computational learning theory (计算 学 习 理论 ) 361 
computeInfoCain () method ( computeInfoGain () 77 
ik), 549 
Computer- Assisted Passenger Prescreening System 
(CAPPS， 计 算 机 辅助 旅客 预 筛选 系统 ) 394 
concept description (概念 描述 ) 39-40 
concepts (概念 ) 40-42, JL input 
defined (定义 的 ) 39 
conditional independence (条 件 独立 性 ) 264-266 
confidence ( 置信 度 ) 
of association rule (关联 规则 的 ) , 72, 116 
intervals (区 间 ) , 150 
upper/lower bound ( 上 /下 界 ) 246 
confidence limits (置信 边界 ) 
in error rate estimation (在 误差 率 估计 中 )， 
197-198 
for normal distribution (用 于 正太 分 布 )，152t 
on success probability (用 于 成 功 概率 ) , 246 
for Student's distribution (用 于 学 生 分 布 )， 
159t 
confusion matrix (混淆 矩阵 ) 164 
ConjunctiveRule algorithm ( ConjunctiveRule 算法 ) , 
4461-450t, 459 
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consequent (Jaf), of rule (规则 的 ) , 67 
ConsistencySubsetEval ^ method 
setEval 方法 ) , 488, 4891: 
constrained quadratic optimization (约束 二 次 优化 ) , 
225 
constructor (J PREX), 523-524 
contact lens problem ( 隐形 眼镜 问题 ) 12-13 
covering algorithm (H mA), 110-115 
rules (AMM), 12f 
structural description (结构 描述 ) 13, 13f 
continuous attribute (连续 属性 ) JL numeric attrib- 
ute 
convex hull (44) 224-225 
Copy filter (Copy 过 滤器 ) , 433t-435t, 436-437 
corrected resampled t- test (纠正 重复 取样 1 检 
验 )，159 
cost curves (成 本 曲线 ) 177-180 
cost in (成 本 ) 179 
cost matrix (成 本 和 矩阵)，166- 167, 166t, 
172 
cost of error (错误 成 本 ) 163-180 
cost curve (成 本 曲线 ) , 177-180 
cost-sensitive classification (成 本 敏感 分 类 )， 


( ConsistencySub- 


166-167 
cost- sensitive learning (成 本 敏感 学 习 )， 
167-168 


example (例子 ) 163-164 
lift chart (提升 图 ) 168-172 
problem misidentification (问题 错误 识别 )， 
163-164 
recall- precision curve (精确 率 -召回 率 曲线 )， 
174-175 
ROC curves ( ROC 曲线 ) 172-174 
cost- benefit analyzer. (成 本 — 收益 分 析 器 ) , 170 
CostBenefitAnalysis ，498 ，499t 
cost-complexity pruning (成 本 - 复杂 度 前 枝 ) 202 
cost-sensitive classification (成 本 敏感 分 类 ) 166- 
167, 356 
in Weka (Weka rH) , 477 
cost-sensitive learning (成 本 敏感 学 习 ) , 167-168 
two-class (两 类 ) ，167-168 
in Weka (Weka 中 ) 477 
CostSensitiveAttributeEval method ( CostSensitiveAt- 
tributeEval 方法 ) ，488 ，489t，491-492 


CostSensitiveClassifier algorithm ( CostSensitiveClassi- 
fier 算法 ) ，475t，477-478 
CostSensitiveSubsetEval method ( CostSensitiveSub- 
setEval 方法 ) , 489t 
co-training (协同 训练 ) 296 
EM and (EM), 297 
counting the cost (计算 成 本 ) , 163-180 
covariance matrix ( 协 方差 矩阵 ) 289 
coverage (覆盖 量 ) of association rule (关联 规则 
89), 72, 116 
dividing (KLI), 122-123 
minimum (最 小 ) ，122-123 
specifying (指定 ) ，123-124 
covering algorithm (覆盖 算法 ) 108-116 
example (例子 ) 110-115 
illustrated (示例 图 ) ，109f 
instance space during operation of (操作 过 程 中 
的 实例 空间 ) ，110f 
operation (操作 ) ，110 
in producing rule (用 于 产生 规则 ) ，205 
in two- dimensional space (在 2 维 空间 中 )， 
108 
CPU performance (CPU 性 能 ) 15 
dataset (数据 集 ) 16t 
in Weka (Weka 中 ) ，423f 
cross-validation (交叉 验证 ) 89, 152-154 
estimate (评估 ) , 157-159 
folds (fT), 153 
leave-one-out ( 留 一 法 ) 154 
repeated (重复 的 ) 159 
for ROC curve generation (用 于 生成 ROC H 
££), 173 
stratified threefold (4 3 JT), 153 
tenfold (10 jp), 153-154, 306 
threefold (3 Jr), 153 
CrossValidationFoldMaker, 495-496, 499-502, 499t 
CSV, Seecomma-separated value, Ji comma- separa- 
ted value 
CSVLoader, 417-418 
cumulative margin distribution (累积 边际 分 布 )， 
528-529 
customer support/service application. (客户 支持 / 服 
务 应 用 ) 28 
cutoff parameter (截止 参数 ) 283 
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CVParameterSelection algorithm ( CVParameterSelec- 
tion 算法 ) , 4751, 478, 578 


D 


Dagging algorithm ( Dagging BY), 474-476, 475t 
data (数据 ) 35 
linearly separable (线性 可 分 ) 127-128 
noise (I), 6-7 
overlay (H#), 52 
scarcity of (的 缺乏 ) 397 
sparse (fh), 56 
with string attribute ( 带 有 字符 串 属 性 的 )， 
579-580 
data cleansing (数据 清洗 ) 60, 307, 331-337, 
见 data transformation 
anomaly detection (异常 检测 ) , 334-335 
decision tree improvement. (改进 决策 树 ) 332 
methods (方法 ) 307 
one-class learning ( 单 类 学 习 ) , 335-337 
robust regression (稳健 回归 ) ，333-334 
data mining (数据 挖掘 ) 4-5, 8-9 
adversarial ( 对 抗 的 ) 393-395 
applying (应 用 ) ，375-378 
as data analysis (作为 数据 分 析 ) 4-5 
ethics and (道德 ) 33-36 
learning machine and (机 器 学 习 ) 3-9 
scheme comparison (方案 比较 ) 156-157 
ubiquitous (无 处 不 在 的 ) 395-397 
data preparation (数据 准备 ) J input 
ARFF file ( ARFF 文件 ) 52-56 
attribute type (属性 类 型 ) 56-58 
data gathering in (收集 数据 ) 51-52 
data knowledge and (数据 知识 ) 60 
inaccurate value in (不 准确 的 值 ) 59-60 
missing value in (缺失 值 ) 58-59 
sparse data (RAMAGE), 56 
data projections (数据 投影 ) 306-307, 322-330 
partial least-squares regression ( 偏 最 小 二 乘 回 
IH), 326-328 
principal components analysis ( 主 成 分 分 析 ) , 
324-326 
random (随机 ) 326 
‘text to attribute vector (从 文本 到 属性 向 量 ) , 


328-329 
time series (时 间 序 列 ) , 330 
data stream learning (数据 流 学 习 ) 380-383 
algorithm adaptation for (改进 算法 用 于 )， 
381-382 
Hoeffding bound ( Hoeffding 边界 ) ，382 
memory usage (内存 使 用 ) , 383 
Naive Bayes for (朴素 贝 叶 斯 用 于 ) ，381 
tie-breaking strategy (打破 平局 策略 ) 383 
data transformations (数据 转换 ) ，305-349 
attribute selection (属性 选择 ) 306-314 
data cleansing (数据 清洗 ) ，307，331-337 
data projection (数据 投影 ) 306-307, 322-330 
discretization of numeric attribute (数值 属性 离 
散 化 ) 306, 314-322 
input types and (输入 类 型 和 ) , 323 
methods for (方法 用 于 ) 306 
multiple classes to binary ones (多 分 类 问 题 转 
换 成 二 分 类 问题 ) 307, 338-343 
sampling (抽样 ) 307, 330-331 
data warehousing (数据 仓库 ) 52 
dataSet connections (dataSet 连接 ) 501 
DataVisualizer, 498, 499t 
date attribute (日 期 属性 ) 54 
DBScan algorithm ( DBScan 算 法 ), 480t, 483- 
485, 484f 
decision boundary (决策 边界 ) 63 
decision lists (决策 列表 ) , 10 
rules versus (规则 与 ) , 115-116 
decision stump (决策 桩 )，362 
decision tree induction (决策 桩 归纳 ) 29, 332 
complexity (复杂 度 ) 199-200 
top-down ( 自 顶 向 下 ) 202-203 
decision tree (决策 树 ) 5, 64, 103f 
alternating (交替 式 ) 366-368, 367f 
C4. 5 algorithm and (C4. 5 算法 和 ) , 201-202 
constructing (创建 ) 99-108 
cost- complexity pruning (成 本 — 复杂 度 剪 枝 ) , 
202 
for disjunction (用 于 析 取 )，69f 
error rate estimation (误差 率 估计 ) 197-198 
examples (例子 ) 13f, 18f 
highly branching attribute (高 度 分 支 属 性 ) , 
105-107 
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improving (改进 ) 332 
information calculation (计算 信息 量 ) 103-104 
interactive construction (交互 式 创建 ) 569-571 
missing value (缺失 值 ) 64, 194-195 
multivariate (多 变量 ) 203 
nodes ( 结 点 ) 64 
numeric attribute (数值 属性 ) ，193-194 
partial (局 部 的 ) ，obtaining rules from (从 中 
获取 规则 ) ，208-212 i 
pruning (Bjf$), 195-197 
with replicated subtree (AETH), 71f 
rules (规则 ) , 200-201 
top-down induction of ( A Tif] F), 107-108 
univariate ( 单 变量 ) 203 
visualizing (可 视 化 ) 573 
in Weka (Weka 中 ) , 410-414 
Weka Explorer exercise ( Weka Explorer 练习 ) , 
566-571 
DecisionStump algorithm ( DecisionStump 算法 )， 
4461-450t, 455 
DecisionTable algorithm ( DecisionStump 算 法 )， 
4461-450t, 457 
Decorate algorithm (Decorate BYE), 475t, 476 
dedicated multi- instance method (专用 多 实例 方 
iX), 301-302 
Delta，330 
dendrogram ( 树 状 图 ) 81, 274-275 
denormalization ( 反 规 范 化 ) 44 
problems with (问题 ) 46 
DensiTree, 292, 292f 
diagnosis application (诊断 应 用 ) 25-26 
faults (故障 ) ，25-26 
machine language in (机 器 语言 ) ，25 
performance test (性 能 检测 ) , 26 
difference attribute (不 同属 性 ) ，132 
direct marketing (直销 ) 27 
directed acyclic graph (有 向 无 环 图 ) 262 
discrete attribute (离散 化 属性 ) 51 
converting to numeric attribute (转换 成 数值 属 
性 ) ，322 
discretization (离散 化 )，306，314- 322, X, 
data transformation 
IR (1-rule) (1 规则 ) ，315 
decision tree learner (决策 树 学 习 器 ) ，315 


entropy-based (dk FRARI), 316-319 
error-based (基于 误差 的 ) 320-322 
global (全 局 的 ) 315 
partitioning (划分 ) 87 
proportional k-interval (35$; k [X |H]) ，316 
supervised (有 监督 的 ) 316, 574 
unsupervised (无 监督 的 ) 316, 574 
Weka Explorer exercise ( Weka Explorer 练习 ) , 
574-575 
Weka metalearner for ( Weka 元 学 习 器 用 于 ) , 
443f 
discretization- based calibration (基于 离散 化 的 校 
w), 345 
Discretize filter ( Discretize 3 JE 28 ), 416, 433t- 
435t, 438, 444t 
disjunctive normal form ( 析 取 范式 ) 71-72 
distance functions (上 距离 函数 ) 131-132 
difference attribute (不 同属 性 ) 132 
generalized ( 泛 化 ) 249-250 
for generalized exemplar (用 于 泛 化 样本 集 )， 
248-249 
missing value (缺失 值 ) 132 
distribution (分 布 ) in Weka (Weka 中 ) 515-517 
diverse- density method (多 样 性 密度 方法 ) ，302 
divide-and-conquer (分 治 法 ) 99-108, 308 
DMNBText algorithm ( DMNBText 算 法 ) 446t- 
450t，453 
document classification (文档 分 类 ) ，387， 见 clas- 
sification 
actual document ( ZERE), 580-581 
in assignment of key phrase (赋予 关键 词组 ) , 
387-388 
in authorship ascription (作者 归属 ) , 387-388 
data with string attribute (有 字符 串 属 性 的 数 
据 ) 579-580 
in language identification (语言 识别 ) , 387-388 
as supervised learning (作为 有 监督 学 习 ) , 387 
Weka Explorer exercise ( Weka Explorer 练习 ) , 
578-582 
document clustering ( 3C P4325) , 387 
domain knowledge ( 领域 知识 ) 19 
double- consequent rule 〈( 双 后 件 规则 ) , 123 
DTNB algorithm (DTNB 算法 ) , 446t-450t, 457 
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E 


early stopping (提前 停止 ) 238b-239b 
eigenvalue (特征 值 ) 324 
eigenvector (特征 向 量 ) , 324 “ 
EM algorithm. (EM 算法 ) 480-483, 480t, 482f 
embedded machine learning (fe A xt ILAZ 23) , 
531-538 
END algorithm (END 算法 ) 475t 
ensemble learning (集成 学 习 ) , 351-373 
additive regression ( 累加 回归 ) , 362-365 
bagging (4848) , 352-356 
boosting (提升 ) 358-362 
interpretable ensemble (可 解释 的 集成 器 )， 
365-369 
multiple model (多 个 模型 ) ，351-352 
randomization (随机 化 ) 356-358 
stacking (堆栈 ) 369-371 
entity extraction (实体 提取 ) ，in text mining (文本 
挖掘 中 ) ，388 
entropy (48), 104 
entropy- based discretization ( 3E F 4 AY Ej REC E), 
316-319 
error- based discretization versus (基于 误差 的 离 
散 化 ) 320-322 
illustrated (示例 图 ) 318f 
with MDL stopping criterion (用 MDL 停止 准 
WJ), 320 
results (结果 ) ，318f 
stopping criteria (停止 准则 ) 315, 318-319 
enumerated (X285) , 51 
enumerating concept space ( 枚 举 概念 空间 ) , 30-31 
equal-frequency binning (等 频 装 箱 ) ，316 
equal-interval binning (等 区 间 装 箱 ) ，316 
error log (出 错 日 志 ) 415-416 
error rate (误差 率 ) 148 
decision tree (决策 树 ) 197-198 
repeated holdout (重复 旁 置 ) 152-153 
success rate and (成 功率 和 ) , 197-198 
training set (训练 集 ) , 148 
error- based discretization (基于 误差 的 离散 化 )， 
320-322 
errors (RÆ) 


classification (42$) , visualizing (可 视 化 )， 
565 
estimation (fit), 156 
inaccurate value and (不 准确 的 值 ) 59-60 
mean-absolute (平均 绝对 ) ，181 
mean-squared ( 均 方 ) 181 
propagation (传播 ) 238b-239b 
relative-absolute (相对 绝对 ) 181 
relative-squared ( 相对 平方 ) 181 
resubstitution (再 代 人 ) , 148-149 
squared (平方 ) 161 
training set (训练 集 ) 197 
estimation error (估计 误差 ) 156 
ethics (道德 ) 33-36 
issues (问题 ) 35-36 
personal information and (个 人 信息 ) ，34-35 
reidentification and (再 识别 ) , 33-34 
Euclidean distance ( 欧 几 里 得 距离 )，131 
function (PRA), 246 
between instance (实例 间 ) , 276 
evaluation (评估 ) 
clustering (RÆ), 186 
as data mining key (作为 数据 挖掘 的 关 
键 ) 147 
numeric prediction (数值 预测 ) , 180-182 
performance (性 能 ) 148 
examples (实例 ) ，42-49， 见 instance 
class of (的 类 ) ，40 
relations (关系 ) ，43-46 
structured (结构 化 的 ) 46-49 
types of (的 类 型 ) ，43-49 
exception (例外 ) rule with (规则 带 有 ) 73-75, 
212-215 
exclusive- or problem ( 蜡 或 问题 ) ，70f 
exclusive-OR (XOR， 异 或 ) 233 
exemplars (样本 集 ) ，245 
generalizing ( 泛 化 )，247-249 
noisy (I), pruning ( 剪 枝 ) 245-246 
reducing number of (减少 数量 ) 245 
exhaustive error- correcting code (详尽 的 误差 校正 编 
码 ) 341 
ExhaustiveSearch method ( ExhaustiveSearch 方法 )， 
490t, 493 
expectation (328), 289 
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expectation maximization (EM) algorithm (期 望 最 
大 化 算法 ) ，287 
maximization step (最 大 化 步骤 )，295-296 
with Naive Bayes (朴素 贝 叶 斯 ) 295 
Experimenter, 405, 505-517, X, Weka 
advanced setup (高 级 设置 ) 511-512 
Analyze panel ( Analyze 面板 )，505- 509, 
512-515 
distributed processing (分 布 式 处 理 ) 515-517 
experiment illustration (实验 示例 ) , 506f-508f 
results analysis (结果 分 析 ) , 509-510 
Run panel (Run 面板 ) 505-506 
running experiment (运行 实验 ) 505 
Setup panel (Setup 面板 ) , 505, 510 
simple setup (简单 设置 ) 510-511 
starting up (启动 ) 505-510 
expert model (专家 模型 ) 352 
Explorer, 404, 407-494, JL Weka 
applying filter (应 用 过 滤器 ) 561 
ARFF format ( ARFF 格式 ) 417-419 
Associate panel ( Associate 面板 ) , 429-430 
association- rule learning (关联 规则 学 习 )， 
485-487 
attribute selection (属性 选择 ) 487-494 
automatic attribute selection (自动 属性 选择 ) , 
562, 575-576 
automatic parameter tuning (自动 参数 调整 ) ， 
571-578 
classification boundary (分 类 边界 ) 571-574 
Classify panel (Classify 面板 ) , 422-424, 562-565 
Cluster panel (Cluster 面板 ) , 429 
clustering algorithm ( 聚 类 算法 ) 480-485 
CSV data file ( CSV 数据 文件 ) 408 
CSVLoader, 417-418 
Data Visualizer, 427 
decision tree building (建立 决策 树 )，410- 
414, 566-571 
discretization (离散 化 )，574-575 
document classification (文档 分 类 ) , 578-582 
error log (错误 日 志 ) 415-416 
filtering algorithm (过 滤 算 法 ) ，432-445 
filters (过 滤器 ) ，419-422 
interface illustration (界面 示例 ) ，408f 
introduction to (介绍 ) 559-565 


J4. 8, 410-414 

learning algorithm (学 习 算法 ) , 445-474 

loading and filtering file (RA RWW UIE), 
416-422 

loading data into 〈 载 人 数据 到 ) , 408-410 

loading dataset ( 载 人 数据 集 ) 559-560 

market basket analysis (购物 篮 分 析 ) , 584-585 

metalearners (元 学 习 器 ) ，427 

metalearning algorithm (元 学 习 算 法 ) ，474-479 

models (模型 ) 414-415 

nearest- neighbor learning (最 近邻 学 习 )， 
566-571 

neural networks (神经 网 络 ) 469-472 

Preprocess panel ( Preprocess 面板 )，411， 
416, 419, 561 

preprocessing ( 预 处 理 ) 574-578 

real- world dataset mining (挖掘 真实 的 数据 
集 ) 584 

search method (搜索 方法 ) ，492-494 

Select Attribute panel (Select Attribute 面板 ) , 
430, 478 

training/testing learning scheme (训练 /测试 学 
JFR), 422-424 

Tree Visualizer，427 

tutorial exercise for (辅导 联系 ) 559-585 

User Classifier, 424-427 

Viewer, 560, 560f 

Visualize panel ( Visualize 面板 ) , 430-432, 562 

eXtensible Markup Language (XML， 可 扩展 标记 语 
言 ) 52-56 


F 


false negatives (FN， 假 负 例 ) 164, 176t, 580 

false positive rate (RE), 164 

false positives (FP， 假 正 例 ) 164, 176t, 580 

Familiar system (Familiar 系统 ) ，396-397 

FarthestFirst algorithm (FarthestFirst 算法 ) 480t, 
483 

FastVector, 536 

feature selection. (特征 选择 ) , 346 

feed-forward network (前 馈 网 络 ) 238b-239b 

fielded application (应 用 领域 ) ，21-28 
automation ( 自动化) 28 
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customer service/support (客户 服务 /支持 ) 28 
decisions involving judgment (包含 评判 的 决 
4), 22-23 
diagnosis (诊断 ) 25-26 
image screening (图 像 筛 选 ) 23-24 
load forecasting (负载 预测 ) , 24-25 
manufacturing process ( ATARI), 27 
marketing and sale (市 场 和 销售 ) 26-27 
scientific 〈 科学 领域 ) 28 
Web mining (Web 1218), 5 
field ( 领域 ) 525 
file mining (文件 挖掘 ) 48-49 
file (文件 ) 
ARFF，52-56 
filtering (过 滤 ) 419-422 
loading ( 装 人 ) , 416-422 
opening (打开 ) ，416 
filter method (过 滤 方 法 ) 308-309 
FilteredAssociatorrule learner ( FilteredAssociator 规 
则 学 习 器 ) 486t, 487 
FilteredAttributeEval method ( FilteredAttributeEval 
方法 ) 489t, 491-492 
FilteredClassifier algorithm ( FilteredClassifier 算法 ) , 
4751, 569 
FilteredClassifier metalearning scheme ( FilteredClas- 
sifier 755€ JFR), 443-444, 538 
FilteredCluster algorithm ( FilteredCluster 算 法 ), 
480t, 483 
FilteredSubsetEval method ( FilteredSubsetEval 7j 
法 ) 488, 489t 
filtering algorithm ( Weka) 
432-445 
filtering approach (过 滤 方 法 ) 334-335 
filters (过 滤器 ) ，404 
applying 应 用 ，421 
applying ( Weka Explorer) 
plorer) ) 561 
attribute (属性 ) 432-441, 443-445 
choosing (选择 ) 420f 
information on (信息 ) 421 
instance (实例 ) , 432, 441-442, 445 
supervised (有 监督 的 ) 432, 443-445 
unsupervised (无 监督 的 ) 432-442 
in Weka (Weka 中 ), 411 


(过 滤 算 法 (Weka)), 


(应 用 (Weka Ex- 


finite mixture (有 限 混 合 ) ，286 

FirstOrder filter ( FirstOrder it WE 器 )，433t- 
435t，439 

fixed set (固定 集 ) ，492 

fixed width (固定 宽度 ) ，492 

flat file (平面 文件 ) ，42 

F-measure (下 度量 ) 175, 479 

forward pruning 〈 前 向 剪 枝 ) 195 

forward selection 〈 正 向 选择 ) 311-312 

forward stagewise additive modeling (前 向 逐步 累加 
模型 ) ，362 
implementation ( 实现) 363 
numeric prediction (数值 预测 ) , 362-363 
overfitting and (过 度 拟 合 ) 363 
residual ( 残 差 ) 368-369 

FP-growth algorithm ( FP-growth 算法 ) 216, 223 

FPGrowth rule learner ( FPGrowth 规则 学 习 器 )， 
486-487, 486t 

frequent- pattern tree ( 频繁 模式 树 ) ; 216 
building (建立 ) 216-219 
compact structure (压缩 的 结构 ) 216-217 
data preparation example (数据 准备 的 例子 ) , 

217t-218t 

header table (标题 表 ) 219-222 
implementation (实现 ) ，222-223 
speed (速度 ) ，222 
structure illustration (结构 示例 ) , 220f-221f 
support threshold (支持 度 阅 值 ) , 222-223 

FT algorithm (FT 算法 )，446t-450t，456-457 

functional dependency ( 函数 依赖 ) ，385 

functional tree ( 函数 树 ) 65 

function (函数 ) Weka algorithm (Weka 算法 )， 
446t-450t, 459-469 


G 


gain ratio (增益 率 ) , 105-107 
GainRatioAttributeEval method ( GainRatioAttribute- 
Eval 方法 ) 489t, 491 
Gaussian process regression (高 斯 过 程 回归 ) 243 
GaussianProcesses algorithm ( GaussianProcesses 算 
法 ) 4461-4501, 464 
generalization ( 泛 化 ) 
exemplar (样本 集 ) 247-249, 251 
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instance-based learning and (基于 实例 的 学 习 
45), 251 

stacked (堆栈 式 ) , 369-371 

generalization as search (将 泛 化 看 做 搜索 ) , 29 
bias (偏差 ) 31-33 
enumerating the concept space ( 枚 举 概念 空 

间 ) 30-31 

generalized distance function ( 泛 化 距离 函数 ) , 249- 
250 

Generalized Sequential Pattern ( GSP, J` X F RI 
式 ) 223 

GeneralizedSequentialPattern rule learner ( General- 
izedSequentialPattern 规则 学 习 器 ) , 486t, 487 

generalizing exemplar ( 泛 化 样本 集 ) 247-248 
distance function for (EEBEPRERHH-T), 248-249 
nested (Æ), 248 

generic option (CLI) (通用 选项 (CLI)), 526-529 
list of (列表 ) , 527t 

GeneticSearch method ( GeneticSearch XY 法 ), 
490t, 493 

getCapabilities() method (getCapabilities() 方 法 ) , 539 

getTechnicalInformation() method, 539 

glass dataset (玻璃 数据 集 ) , 566-567 

global optimization (全 局 优化 ) classification rules 
for (分 类 规则 用 于 ) , 208 

globalInfo() method ( globalInfo() F} ) , 539 

gradient ascent (梯度 上 升 ) 302 

gradient descent. (梯度 下 降 ) 238b-239b 
illustrated (示例 ) ，237f 
stochastic ( 随机 的 ) 242-243 
subgradient (次 梯度 ) ，242 

Grading algorithm (Grading 算法 ) 475t, 477 

GraphViewer, 498, 499t 

greedy method (贪心 方法 ) for rule pruning (用 于 
规则 剪 枝 ) 253-254 

GreedyStepwise method ( GreedyStepwise 方法 )， 
490t, 492-493 

GridSearch algorithm ( GridSearch 算法 ) 475t, 478 

group-average clustering (组 平均 聚 类 ) , 276 

growing set (生长 集 ) 205-206 

GSP, JL Generalized Sequential Pattern 


H 


Hamming distance ( 汉 明 距离 )，339-340 


Hausdorff distance (Hausdorff 距离 )，301，303 
hidden layer ( 隐 层 ) multilayer perceptron (多 次 
感知 机 ) 233, 238b-239b, 239f 
hierarchical clustering (层次 聚 类 )，274- 276， 见 
clustering 
agglomerative ( ER), 275-276 
average- linkage method (平均 链接 方法 )， 
275-276 
centroid-linkage method ( 中心 链 接 方法 )，275 
dendrogram ( 树 状 图 )，274-275 
display (展示 )，277f-278f 
example (例子 ) ，276-279 
example illustration (示例 ) 282f-283f 
group-average (组 平均 ) 276 
single-linkage algorithm ( 单 链 接 算 法 ) , 275, 279 
HierarchicalClusterer algorithm ( HierarchicalClusterer 
算法 ) 480t, 483 
highly branching attribute ( $ BF 4+ x JE TE), 
105-107 
hinge loss (€ HH), 242-243, 242f 
histogram equalization (直方 图 均衡 化 ) 316 
HNB algorithm. ( HNB 算法 ) 446t-450t, 451 
Hoeffding bound ( Hoeffding 边界 ) , 382 
Hoeffding tree ( Hoeffding B) , 382-383 
HTML, J HyperText Markup Language 
hyperpipe ( 超 管道 ) 143 
HyperPipes algorithm ( HyperPipes $$ 法 ) 446t- 
450t，474 
Hyperplanes ( 超 平面 ) 127 
maximum- margin (最 大 间隔 ) 224-225 
separating class (分 隔 类 ) , 225b 
hyperrectangle ( 超 矩 形 ) 247 
boundary (边界 ) ，247 
exception (例外 ) ，248 
measuring distance to (测量 距离 ) 249 
in multi-instance learning (多 实例 学 习 中 ) 303 
overlapping (3), 248 
hypersphere ( 超 球面 ) 135 
HyperText Markup Language (HTML， 超 文本 标记 
语言 ) 
delimiter (分 隔 符 ) 390 
formatting command (格式 命令 ) 389-390 


IBlalgorithm (IB1 算法 ) 446t-450t, 472 
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IB3, JL Instance- Based Learner version 3 
IBk algorithm (IBk BY), 4461-450t, 472 
Id3 algorithm (Id3 算法 ) 446t-450t 
ID3 decision tree learner (ID3 决策 树 学 习 器 )， 
107-108, 539-555 
buildClassifier () method ( buildClassifier () 77 
3k), 540 
classifyInstance () method ( classifyInstance () #7 
法 ) 549-550 
computeInfoGain () method ( computeInfoCain ( ) 
方法 ) 549 
gain ratio (增益 率 ) , 107-108 
getCapabilities () method ( getCapabilities () 77 
ik), 539 
getTechnicalInformation () method ( getTechni- 
calInformation() 7715; ) , 539 
globalInfo() method (globallnfo() 771X) , 539 
improvements (改进 ) 108 
main() method (main() 方 法 ) 553-555 
makeTree () method ( makeTree () 方法 )， 
540-549 
Sourcable interface (Sourcable 界面 ) , 539, 550 
source code ( 源 代 码 ) 541f-548f 
TechnicallnformationHandler interface ( Techni- 
calInformationHandler 界面 ) , 539 
toSource() method (toSource() F), 550-553 
identification code attribute (标识 码 属 性 ) 88 
example (例子 ) 106t 
image screening (图 像 筛选 ) 23-24 
hazard detection system (和 危险 探测 系统 ) 23 
input (输入 ) 23 
problems (问题 ) ，24 
implementation (real machine learning scheme) ( 实 
现 〈 真 正 的 机 器 学 习 方 案 ) ) , 191-304 
association rule (关联 规则 ) ，216-223 
Bayesian network ( 贝 叶 斯 网 络 ) 261-273 
classification rule (分 类 规则 ) , 203-216 
clustering ( RÆ), 273-293 
decision tree (决策 树 ) ，192-203 
instance-based learning (基于 实例 的 学 习 )， 
244-251 
linear model extension (扩展 线性 模型 )， 
223-244 
multi- instance learning (多 实例 学 习 )， 


298-303 
numeric prediction with local linear model (使 用 
局 部 线性 模型 的 数值 预测 ) ，251-261 
semisupervised learning ( 半 监 督学 习 )， 
294-298 
inaccurate value (不 准确 的 值 ) 59-60 
incremental clustering ( 增 量 聚 类 ) 279-284 
acuity parameter (敏锐 度 参 数 ) 281 
category utility (分 类 效用 ) 279, 281 
cutoff parameter (截止 参数 ) 283 
example illustration (示例 ) , 280f, 282f-283f 
merging (合并 ) 281 
splitting (分 裂 ) 281 
incremental learning ( 增 量 学 习 )，502-503 
incremental reduced-error pruning ( 增 量 减少 -误差 
前 枝 )，206，207f 
IncrementalClassifierEvaluator, 498-500, 499t 
inductive logic programming (归纳 逻辑 编程 ) 77 
InfoGainAttributeEval method ( InfoGainAttributeEval 
方法 ) 489t, 491, 582 
information (信息 量 ) 35, 100-101 
calculating (计算 ) , 103-104 
extraction (抽取 ) , 388-389 
gain calculation (计算 增益 ) , 203-204 
measure (度量 ) 103-104 
value (fi), 104 
informational loss function ( (A & d P), 
161-163 
information- based heuristics (基于 信息 的 启发 式 规 
则 ) ，204 
input (输入 ) ，39-60 
aggregating (RÆ), 142 
ARFF format ( ARFF 格式 ) 52-56 
attribute type (属性 类 型 ) 56-58 
attribute (属性 ) 39 
concept (概念 ) ，40-42 
data assembly (数据 汇集 ) 51-52 
data transformation and (数据 转换 ) ，323 
example (例子 ) 42-49 
flat file (平面 文件 ) ，42-43 
form (形式 ) ，39 
inaccurate value (不 准确 的 值 ) 59-60 
instance (实例 ) , 42-49 
missing value (缺失 值 ) 58-59 
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preparing (准备 ) 51-60 
sparse data (FEMA), 56 
tabular format (表格 格式 ) 124 
input layer (输入 层 ) multilayer perceptron (多 层 
感知 机 ) ，233 
instance connection (instance 连接 ) 193 
instance filter. (实例 过 滤器 ) 432 
supervised (有 监督 的 ) ，445 
unsupervised (无 监督 的 ) ，441-442 
instance space (实例 空间 ) 
in covering algorithm operation (覆盖 算法 操作 
rH), 110f 
partitioning method (分 隔 方法 ) , 80f 
rectangular generalization in (IZME), 79 
Instance- Based Learner version 3 (IB3) (基于 实例 
的 学 习 髓 版 本 3)，246 
instance- based learning (基于 实例 的 学 习 )，78， 
131-138 
in attribute selection (属性 选择 中 ) 310 
characteristics (特点 ) 78 
distance function (距离 函数 ) 131-132 
distance function for generalized exemplars ( 用 
于 泛 化 样本 集 的 距离 函数 ) 200 
explicit knowledge representation and (显示 的 知 
识 表达 ) 250-251 
generalization and ( 泛 化 和 ) , 251 
generalizing exemplar ( 泛 化 样本 集 ) 247-248 
nearest-neighbor (最 近邻 ) ，132-137 
performance (PERE), 246 
pruning noise exemplar ( 剪 枝 噪 声 样本 集 )， 
245-246 
reducing number of exemplar (减少 样本 数 
H), 245 
visualizing (可 视 化 ) 81 
weighting attribute (属性 加 权 ) , 246-247 
instance-based representation (基于 实例 的 表达 ) , 
78-81 
instances (Xj), 9-10, 39, 42 
centroid ( 质心) 139 
misclassified (错误 分 类 的 ) 128-130 
with missing value (Ei eK fj) , 194 
multilabeled (多 类 标的 ) 40 
order (顺序 ) 55 


sparse (JE), 442 
subset sort order ( 子 集 排 序 顺 序 ) 194 
training (训练 ) 184 
in Weka (Weka FH), 520 
InstanceStreamToBatchMaker, 499-500, 499t 
interactive decision tree construction (交互 式 地 创建 
决策 树 ) 569-571 
interpretable ensemble (可 解释 的 集成 器 )， 
365-369 
logistic model tree ( Logistic 模型 树 ) 368-369 
option tree (选择 树 ) ，365-368 
InterquartileRange filter ( InterquartileRange 过 滤 
38), 4331-435t, 436 
interval quantities (区 间 值 ) 50 
iris example (Ær), 13-15 
boundary decision (决策 边界 )，63，63f 
data as clustering problem (用 于 聚 类 问题 的 数 
据 ) 41t 
dataset (数据 集 ) ，14t 
DBScan clusters ( DBScan RÆ), 484f 
decision tree (决策 树 ) 65, 66f 
hierarchical clustering (层次 聚 类 ) , 282f-283f 
incremental clustering ( 增 量 聚 类 ) 279-284 
Logistic output ( Logistic 输出 ) , 468f 
OPTICS visualization ( DBScan 可 视 化 ) , 485f 
rules (规则 ) 14 
rules with exception ( 带 有 例外 的 规则 )，73- 
75, 74f, 213-215, 213f 
SMO output (SMO 输出 )，463f-464f 
SMO output with nonlinear kernel (使 用 非 线 性 
核 的 SMO 输出 ) ，465f-467f 
Visualization (可 视 化 ) 431f 
isotonic regression ( 保 序 回归 ) , 345 
IsotonicRegression algorithm ( IsotonicRegression 算 
JE), 446t-450t, 462 
item sets (项 集 ) 116 
checking (4235), of two consecutive sizes (两 
个 相 邻 规模 的 ) 123 
converting to rule (转换 成 规则 ) , 119 
in efficient rule generation (用 于 有 效 生 成 规 
则 ) ，122-123 
example (例子 ) ，117t-118t 
large (大 的 ) finding with association rule ( Sj 
找 用 于 关联 规则 ) 219-222 
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minimum coverage (最 小 履 盖 量 ) 122 
subset of ( 子 集 ) 122-123 

item (项 ) ，116 

iterative distance-based clustering (基于 距离 的 迭代 
RAE) ，139 


J 


J48 algorithm (J48 $E 3X), 410-411, 446t- 450t, 
498, 502-503, 505, 519 
changing parameter for (改变 参数 用 于 ) 455f 
cross- validation with (使 用 交叉 验证 )， 
498-500 
discretization and (离散 化 和 ) , 575 
evaluation method (评估 方法 ) ，413 
output (输出 ) 412f 
parentheses following rule (规则 后 的 圆 括 
号 ) ，459 
result visualization (可 视 化 规则 ) ，415f 
using (使 用 ) 411f 
J48graft algorithm (J48graft 算法 ) , 4461-450t, 455 
Java database connectivity ( JDBC, Java 数据 库 连 
HE) 
database ( 数据库) 515 
drivers (驱动 )，419, 510-511, 515 
Java virtual machine (Java 虚拟 机 ) , 519 
Javadoc index (Javadoc 5|), 525-526 
JRip algorithm (JRip HE), 446t-450t, 459 
judgment decision, 22-23 


K 


K2 algorithm (K2 算法 ) 273 

Kappa statistic (Kappa 统计 ) 166, 413 

kD-trees (kD 树 ) 132 
building (建立 ) 133 
in finding nearest- neighbor (寻找 最 近邻 )， 

133-134, 134f 

for training instance (用 于 训练 实例 ) 133f 
updating (更 新 ) ，135 

kernel logistic regression ( 核 Logistic 回归 )， 
231-232 

kernel perceptron ( 核 感 知 机 ) , 231-232 

kernel ridge regression ( 核 岭 回归 ) , 229-231 
computational expense (计算 开销 ) 230b 


computational simplicity (计算 简便 ) , 230b 
drawback (缺点 ) 230b 
kernel trick ( 核 技巧 ) 229-230 
KernelFilter filter ( KernelFilter 分 类 器 ), 433t- 
435t, 439 
k-means clustering (k 1548325) , 139 
iterations (和 迭代 ) , 139-140 
k-mean + +, 139 
seeds (种 子 ) 139 
k- nearest- neighbor method (大 最 近邻 方法 ) 78 
knowledge (知识 ) 35 
background (背景 ) ，380 
metadata (元 数据 ) 385 
prior domain ( 先 验 领域 )，385 
Knowledge Flow interface ( Knowledge Flow 界面 )， 
404-405, 495-503, JL Weka 
Association panel ( Association 面板 ) , 498 
Classifier panel (Classifier 面板 ) , 498 
Cluster panel ( Clusters 面板 ) ，498 
component (组 件 ) 498-500 
component configuration and connection (配置 及 
连接 组 件 ) 500-502 
dataSet connection (dataSet 连接 ) , 501 
evaluation component (评估 组 fF), 498- 
500, 499t 
Evaluation panel (Evaluation 面板 ) 495-496, 
499-500 
Filters panel (Filters 面板 ) , 498 
illustrated (示例 图 ) 496f 
incremental learning ( 增 量 学 习 ) , 502-503 
instanceconnection (实例 连接 ) 193 
operations (选项 ) , 500f 
starting up (Jaa), 495-498 
visualization component (可 视 化 组 件 ) , 498- 
500, 499t 
knowledge representation (知识 表示 ) , 85-145 
clusters (RÆ), 81 
instance-based (基于 实例 的 ) 78-81 
linear model (线性 模型 ) ，62-63 
rules (规则 ) , 67-77 
tables (3€) , 61-62 
trees (B), 64-67 
KStar algorithm ( KStar 算法 ) , 446t-450t, 472 
Kullback- Leibler distance (KL 距离 ) 473 
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L 


labor negotiations example (劳资 协商 例子 ) 15-19 
dataset (数据 集 ) 17t 
decision tree (REY), 18f 
OneR output (OneR 输出 ) 458f 
PART output (PART 输出 ) 460f-461f 
training dataset (训练 数据 集 ) 18-19 
LADTree algorithm ( LADTree 算 法 )，446t- 
450t, 457 
language bias (语言 偏差 )，31-32 
language identification (语言 识别 ) 387-388 
Laplace estimator ( 拉 普 拉 斯 估计 器 ) 93, 291 
large item set (大 项 集 )，finding with association 
rule (寻找 用 于 关联 规则 ) 219-222 
LatentSemanticAnalysis method ( LatentSemanticAnal- 
ysis 方法 ) , 489t, 491 . 
LaTeX typesetting system ( LaTeX 排版 系统 )， 
514-515 
law of diminishing return (收益 递减 法 则 ) , 379 
lazy classifier (懒惰 分 类 器 )，in Weka ( Weka 
中 ) 446t-450t, 472 
LBR algorithm (LBR 算法 ) , 446-4501, 472 
learning (%3) 
association (关联 规则 ) , 40 
batch (批量 ) ，238b-239b 
classification (分 类 ) , 40 
concept (Hf), 8 
cost-sensitive (成 本 敏感 ) 167-168 
data stream (数据 流 ) , 380-383 
ensemble (集成 ) 351-373 
incremental ( 增 量 ) 502-503 
instance-based (基于 实例 的 ) 78, 131-138, 
244-251 
locally weighted (局 部 加 权 ) 259-261 
machine (机 器 ) 7-8 
multi-instance (多 实例 ) ，48 ， 
303 
one-class ( %2), 307, 335-337 
in performance situation. (强调 性 能 方面 ) 21 
rote (死记 硬 背 ) 78 
semisupervised ( 半 监 督 的 ) 294-298 
statistics versus (统计 ) 28-29 


141-143, 298- 


testing (测试 ) 7 
training/testing scheme ( 训练 /测试 方案 )， 
422-424 
learning algorithm (学 习 算法 ) 445-474 
Bayes 〔 贝 叶 斯 ) , 4461-4501, 451-453 
function ( PR) , 446t-450t, 459-469 
lazy (懒惰 的 ) , 410-411, 446t-450t 
MI, 446t-450t, 472-474 
miscellaneous (ZIM), 446t-450t, 474 
neural network (神经 网 络 ) ，469-472 
rule (规则 ) 446t-450t, 457-459 
tree (B) 446t-450t, 454-457 
learning Bayesian network (学 习 贝 叶 斯 网 络 )， 
266-268 
learning paradigm (学 习 形 式 )，380 
learning rate (学 习 率 ) ，238b-239b 
learning scheme creation (创建 学 习 方案 ) , in Weka 
(Weka 中 ) , 539-557 
least- squares linear regression (最 小 二 乘 线性 回 
JE), 63, 125-126 
LeastMedSq algorithm ( LeastMedSq 算 法 ) 446t- 
450t, 462 
leave-one-out cross-validation ( # — 24 X. y WE), 
154 
level-O model (0 层 模型 ) 370-371 
level-1 model (1 层 模 型 ) 369-371 
LibLINEAR algorithm ( LibLINEAR 算 法 ) 446t- 
450t, 469 
LibSVM algorithm ( LibSVM 算法 ) 4461-450t, 469 
lift charts (提升 图 ) 168-172 
data for (数据 用 于 ) 169t 
illustrated (示例 图 )，170f 
points on (点 ) 179 
lift factor (提升 系数 ) 168 
linear classification (线性 分 类 ) 
logistic regression (Logistic 回归 ) ，125-127 
using the perceptron (使 用 感知 机 ) , 127-129 
using Winnow (使 用 Winnow) ，129-131 
linear machine (线性 机 ) 144 
linear model (线性 模型 ) 62-63, 124-131 
in binary classification problem (二 分 类 问题 
H), 63 
boundary decision (决策 边界 ) 63 
extending (扩展 ) 223-244 


448 & 引 





generating (生成 ) ，224 
illustrated (示例 图 ) 62f-63f 
kernel ridge regression ( 核 岭 回归 )，229-231 
linear classification (线性 分 类 ) , 125-131 
linear regression (线性 回归 ) , 124-125 
local (局 部 的 ) numeric prediction with (用 
于 数值 预测 ) 251-261 
logistic regression (Logistic 回归 ) ，125-127 
maximum- margin hyperplane (最 大 间隔 超 平 
H), 224-225 
in model tree (模型 树 中 ) 258t 
multilayer perceptron (多 层 感知 机 ) , 232-241 
nonlinear class boundary ( 非 线 性 边界 )， 
226-227 
numeric prediction (数值 预测 ) 124-125 
perceptron (感知 机 ) , 127-129 
stochastic gradient descent (随机 梯度 下 降 )， 
242-243 
support vector machine use (使 用 支持 向 量 
机 ) ，223 
support vector regression (支持 向 量 回归 )， 
227-229 
in two dimensions (二 维 平面 中 ) 62 
linear regression (线性 回归 ) , 124-125 
least-squares (最 小 二 乘 ) 63, 125-126 
locally weighted (局 部 加 权 ) 259-261 
multiple (£), 363 
multiresponse (多 元 ) 125-126 
linear threshold unit (RREJT), 144 
LinearForwardSelection method ( LinearForwardSelec- 
tion 方法 ) , 490t, 492-493 
LinearRegression algorithm (LinearRegression 算法 ) , 
4461-450t, 459-462 
LMT algorithm (LMT 算法 ) 446t-450t, 456 
load forecasting (负载 预测 ) , 24-25 
loading files ( 装 人 文件 ) 416-422 
locally weighted linear regression (局 部 加 权 线 性 回 
归 ) ，259-261 
distance-based weighting scheme (基于 距离 的 加 权 
方案 )，259-260 
in nonlinear function approximation (用 非 线 性 函数 
近似 ) ，260 
logic program (逻辑 编程 ) 77 
Logistic algorithm (Logistic 算法 ) , 446t-450t, 467, 


468f 
logistic model tree ( Logistic 模型 树 ) 368-369 
logistic regression ( Logistic 回归 ) , 125-127 
additive (jl), 364-365 
calibration (校准 ) 346 
generalizing (74K), 126 
illustrated (示例 ) , 127f 
two-class (两 类 ) 126 
LogitBoost, 364-365, 457, 467 
LogitBoost algorithm ( LogitBoost $$ 法 ), 475t, 
476-477 
log-normal distribution (对 数 - 正 态 分 布 ) 290 
log-odds distribution (对 数 - 优势 分 布 ) ，290 
loss functions (损失 函数 ) 
0-1，160 
informational (信息 ) ，161-163 
quadratic (二 次 ) 160-163 
LWL algorithm ( LWL 算法 ) 446t-450t, 472 


M 


M5' program ( M5 ' 程 序 ) 
CPU performance data with (CPU 性 能 数据 使 
FA), 423f 
error visualization (可 视 化 误差 ) ，426f 
output for numeric prediction (输出 用 于 数值 预 
Wij), 425f 
MSP algorithm ( M5P 算法 ) ，446t-450t，456 
M5Rules algorithm ( MSRules 算 法 ) 446t- 450t, 
459 
machine learning (机 器 学 习 ) 7-8 
application (应 用 ) 8-9 
in diagnosis application (诊断 应 用 中 ) 25 
embedded (Hx ASH), 531-538 
expert model (专家 模型 ) 352 
statistics and (统计 ) 28-29 
machine learning scheme ( fl # ^£ 2J 7; 3€), 
191-304 
association rule (关联 规则 ) , 216-223 
Bayesian network ( 贝 叶 斯 网 络 ) 261-273 
classification rule (分 类 规则 ) , 203-216 
clustering ( RÆ), 273-293 
decision tree (决策 树 ) 192-203 
instance-based learning (基于 实例 的 学 习 )， 
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244-251 

linear model extension (扩展 线性 模型 )， 
223-244 

multi- instance learning (多 实例 学 习 )， 
298-303 


numeric prediction with local linear model (使 用 
局 部 线性 模型 的 数值 预测 ) , 251-261 
semisupervised learning ( 半 监 督学 习 )， 
294-298 
main() method (main() 方 法 ) 553-555 
MakeDensityBasedCluster algorithm ( MakeDensity- 
BasedCluster BYE) , 480t, 483 
MakelIndicator filter ( MakeIndicator 过 滤器 ) 433t- 
4351, 438 
makeTree() method (makeTree() 方 法 ) , 540-549 
manufacturing process application (生产 制造 过 程 应 
FA), 27 
market basket analysis (购物 篮 分 析 )，26- 27, 
584-585 
marketing and sale (市 场 和 销售 ) 26-27 
churn (流失 ) 26 
direct marketing (直销 ) 27 
historical analysis ( Jj 49r) , 27 
market basket analysis (购物 篮 分 析 ) 26-27 
Markov blanket (马尔 可 夫 毯 ) 269 
massive dataset (大 规模 数据 集 ) ，378-380 
Massive Online Analysis (MOA， 大 型 在 线 分 析 ) ， 
383 
MathExpression filter ( MathExpression id JE 28), 
433t-435t, 437, 478 
maximization (最 大 化 ) 289 
maximum- margin hyperplane (最 大 间隔 超 平面 )， 
224-225 
illustrated (示例 图 ) 225f 
support vector (支持 向 量 ) 225 
MDD algorithm (MDD 算法 )，446t-450t, -472-473 
MDL， 见 minimum description length principle 
mean-absolute error (平均 绝对 误差 ) 181 
mean-squared error ( 均 方 误差 ) 181 
memory usage ( 内存 使 用 量 ) ，383 
MergeTwoValues filter ( MergeTwoValues 过 滤器 )， 
4331-435t, 438 
message classifier application (消息 分 类 应 用 )， 
531-538 


classifyMessage() method ( classifyMessage () 77 
法 ) ，537-538 
main ( ) method ( main () 方法 )，531- 536, 
5321-535f 
MessageClassifier() constructor. ( MessageClassifi- 
er() HERR), 536 
source code ( 源 代码 ) 531, 532f-535f 
updateData () method ( MessageClassifier () 77 
Æ), 536-537 
MetaCost algorithm ( MetaCost 算法 ) 356, 4751, 
477-478 
metadata (元 数据 ) 51, 384 
application example (应 用 例子 ) ，384 
extraction (提取 ) 388 
knowledge (知识 ) 385 
relations among attribute (属性 间 的 关系 ) 384 


metaleamer (元 学 习 器 ) ，427 
configuring for boosting decision stump (配置 用 
于 提升 决策 桩 ) 429f 
using (使 用 ) ，427 
metalearning algorithm (元 学 习 器 算法 ) in Weka, 
474-479 
bagging (3848) , 474-476 
boosting (提升 ) 476-477 
combining classifier (组 合 分 类 器 ) ，477 
cost- sensitive learning (成 本 敏感 学 习 ) 477-478 
list of (列表 ) , 475t 
performance optimization (优化 性 能 ) ，478-479 
randomization ( 随机 化 ) 474-476 
retargeting classifier (重新 调整 分 类 器 ) ，479 
method (Weka) (方法 (Weka) ) 520 
metric tree (度量 树 ) 137-138 
MIBoost algorithm ( MIBoost $$ 法 ) 446t- 450t, 
473-474 
MIDD algorithm ( MIDD 算 法 ), 446t- 450t, 
472-473 
MIEMDD algorithm ( MIEMDD 算法 ) 446t- 450t, 
472-473 
MILR algorithm ( MILR #3), 446t-450t, 473 
minimum description length (MDL) principle (最 短 
描述 长 度 原 理 ) 163, 183-186 
applying to clustering (应 用 于 聚 类 ) , 186-187 
metric (度量 ) 267 
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probability theory and (概率 理论 和 ) ，184-185 
training instance (训练 实例 ) , 184 
MINND algorithm ( MINND 算法 ) 4461-4501 
MIOptimalBall algorithm ( MIOptimalBall 算 法 )， 
4461-450t, 473 
MISMO algorithm. ( MISMO 算法 ) ，446t-450t，473 
missing values (缺失 值 ) 58-591R, 87-89 
classification rule (分 类 规则 ) , 204-205 
decision tree (ZI AB), 64, 194-195 
distance function (距离 函数 )，132 
instances with (实例 带 有 ) ，194 
machine learning scheme and (机 器 学 习 方 案 
All) , 58 
mixture model (混合 模型 ) 290 
Naive Bayes (朴素 贝 叶 斯 ) 94-97 
partial decision tree. ( 局 部 决策 树 ) 212 
reasons for (的 原因 ) 58 
MISVM algorithm. (MISVM 算法 ) 4461-450t, 473 
MIWrapper algorithm ( MIWrapper 算 法 ) 446t- 
450t，473-474 
mixed- attribute problem (混合 属性 问题 ) ，10-11 
mixture model (混合 模型 ) 286 
extending (扩展 ) ，289-290 
finite mixture (有 限 混 合 ) ，286 
missing value (缺失 值 ) 290 
nominal attribute (名 目 属性 ) 289 
two-class (两 类 ) , 286f 
MOA, J Massive Online Analysis 
model tree (模型 树 ) 67, 251, 252 
building (建立 ) 253 
illustrated (示例 图 ) ，68f 
induction pseudocode (归纳 的 伪 代 码 )，255- 
257, 256f 
linear model in (线性 模型 用 于 ) , 258t 
Logistic, 368-369 
with nominal attribute (478 44 ARTE), 257f 
pruning (894%), 253-254 
rules from (规则 从 ) , 259 
smoothing calculation (平滑 计算 公式 ) 252 
ModelPerformanceChart, 498, ，499t 
MultiBoostAB algorithm ( MultiBoostAB 算法 )， 
475t，476 
multiclass prediction (多 类 预测 ) 164 
MultiClassClassifier algorithm (MultiClassClassifier 算 


法 ) 475t, 479 
multi-instance data (多 实例 数据 ) 
classifier (分 类 器 )，in Weka (Weka rH), 
446t-450t，472-474 
filters for (过 滤器 用 于 ) 440 
multi-instance learning (多 实例 学 习 ) 48, 141-143 
aggregating the input (聚集 输入 ) 142 
aggregating the output (聚集 输出 ) 142 
bags (48), 141-142, 300 
converting to single-instance learning (转换 成 单 
实例 学 习 ) 298-300 
dedicated method (专用 方法 ) 301-302 
hyperrectangle for ( 超 和 矩形 用 于 ) , 303 
nearest- neighbor learning adaptation to (调整 最 
近邻 学 习 用 于 ) ，301 
supervised (有 监督 的 ) ，141-142 
upgrading learning algorithm (升级 学 习 算法 )， 
300-301 
multi- instance problem (多 实例 问题 ) ，48 
ARFF file (ARFF 文件 ) 55f 
converting to single-instance problem (转换 成 单 
实例 问题 ) ，142 
MultiInstanceToPropositional filter ( MultiInstanceTo- 
Propositional 过 滤器 ) ，433t-435t，440 
multilabeled instance (多 类 标 实例 ) 40 
multilayer perceptron (多 层 感知 机 ) , 232-241 
backpropagation ( 反 向 传播 ) 235-241, 238b- 
239b 
bias (偏差 ) 233 
datasets corresponding to (对 应 的 数据 集 )， 
234f 
disadvantage (劣势 ) 238b-239b 
as feed- forward network (作为 前 馈 网 络 )， 
238b-239b 
hidden layer ( 隐 层 ) 233, 238b-239b, 239f 
input layer (输入 层 ) , 233 
units (单元 ) 233 
MultilayerPerceptron algorithm ( MultilayerPerceptron 
算法 ) 446t-450t, 469-472 
GUI, 469, 470f 
NominalToBinaryFilter filter and ( NominalToBi- 
naryFilter 过 滤器 ) 471-472 
Parameter (人 参数) 471 
multinominal Naive Bayes (多 项 式 朴 素 贝 叶 斯 )， 
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97-98 
multiple classes to binary transformation (多 分 类 问 
题 转 换 成 二 分 类 问题 ) 307, 338-343, 340t, 
见 data transformation 
error-correcting output code (误差 校正 输出 编 
f3), 339-341 
nested dichotomies (iE —4 HX), 341-343 
one-vs. -rest method (一 对 多 方法 ) 338 
pairwise classification (成 对 分 类 ) , 339 
pairwise coupling (成 对 耦合 ) 339 
simple method (简单 方法 ) ，338-339 
multiple linear regression (多 元 线性 回归 ) , 363 
multiresponse linear regression (多 响应 线性 回 
归 ) ，125 
drawback (缺点 ) 125-126 
membership function (隶属 函数 ) 125 
MultiScheme algorithm ( MultiScheme 算 法 )， 
475t, 477 
multistage decision property (多 阶段 决策 特性 )， 
103-104 
multivariate decision tree (多 变量 决策 树 )，203 


N 


Naive Bayes (朴素 贝 叶 斯 ) 93, 308 
for data stream (用 于 数据 流 ) 381 
for document classification (用 于 文档 分 类 ) ， 
97-98 
with EM (43 EM), 295 
independent attribute assumption (独立 属性 假 
ik), 289-290 
locally weighted (局 部 加 权 的 ) 260 
missing value (缺失 值 ) 94-97 
multinominal (多 项 式 ) ，97-98 
numeric attribute (数值 属性 ) 94-97 
selective (选择 性 ) ，314 
semantics (i X), 99 
visualizing (可 视 化 ) 573 
Weka algorithm ( Weka 算 法 ) 446t- 450t, 
451-453 
NaiveBayes algorithm ( NaiveBayes $$ 法 ) 446t- 
450t, 451, 452f 
NaiveBayesMultinomial algorithm ( NaiveBayesMulti- 
nomial 算法 ) , 446t-450t 


NaiveBayesMultinomial- Updateable algorithm ( Naive- 
BayesMultinomial- Updateable 算 法 ), 446t- 
450t, 451 

NaiveBayesSimple algorithm ( NaiveBayesMultinomial- 

Updateable 算法 ) 446t-450t, 451 

NaiveBayesUpdateable algorithm ( NaiveBayesUpdate- 

able 算法 ) , 4461-450t, 451 

NAND ( 5j3E), 233 

NBTree algorithm ( NBTree # YF), 446t-450t, 456 

nearest-neighbor classification (最 近邻 分 类 ) , 78 
speed (速度 ) 137-138 

nearest- neighbor learning. (最 近邻 学 习 ) 
attribute selection (属性 选择 ) 567-568 
class noise and (类 噪声 和 ) , 568 
finding nearest neighbor (寻找 最 近邻 ) 88 
Hausdorff distance variant and ( Hausdorff 距离 

变 体 ) 303 
instance-based (基于 实例 的 ) ，132-137 
multi-instance data adaptation (多 实例 数据 的 





修改 ) 301 

training data (训练 数据 )，varying ( 7E 
化 ) 569 

Weka Explorer exercise ( Weka Explorer 练习 ) ， 
566-571 


nested dichotomies (f£ 4H), 341-343 
code matrix (编码 矩阵 ) 342t 
defined (定义 的 ) ，342 
ensemble of (的 集成 ) 343 
neural network (神经 网 络 ) ，469-472 
n-fold cross-validation (n 折 交 叉 验 证 ) 154 
n-grams, 387-388 
Nnge algorithm (Nnge 算法 ) , 4461-450t, 459 
noise (I), 6-7 
class (类 ) 568 
nominal attribute (名 目 属性 ) 49 
mixture model (混合 模型 ) 289 
numeric prediction (数值 预测 ) 254 
symbol (f), 49 
NominalToBinary filter ( NominalToBinary 过 滤器 )， 
4331-435t, 439, 444, 444t, 471-472 
NominalToString filter ( NominalToBinary 过 滤器 )， 
4331-435t, 439 
nonlinear class boundary ( 非 线 性 类 边界 ) 226-227 
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NonSparseToSparse filter ( NonSparseToSparse i iif 
tF), 441t, 442 
normal distribution (正太 分 布 ) 
assumption (假设 ) 97, 99 
confidence limit (置信 区 间 ) ，152t 
normalization (规范 化 ) 462 
Normalize filter ( Normalize 过 滤器 ) 433t- 4351, 
437, 441t, 442 
NOT (4E), 233 
nuclear family (核心 家 庭 ) 44-46 
null hypothesis ( 零 假 设 ) 158 
numeric attribute (数值 属性 ) , 49, 314-322 
IR (1 规则 ) 87-89 
classification rule (分 类 规则 ) 205 
converting discrete attribute to (离散 属性 转换 
为 ) ，322 
decision tree (决策 树 ) ，193-194 
discretization of (的 离散 化 ) 306 
Naive Bayes (朴素 贝 叶 斯 ) 94-97 
normal- distribution assumption for (正太 分 布 假 
设 用 于 ) ，99 
numeric prediction (数值 预测 ) 15, 40 
additive regression ( 累加 回归 ) , 362-363 
bagging for (4848 H] T), 354-355 
evaluating (评估 ) ，180-182 
linear model (线性 模型 ) 124-125 
outcome as numeric value (结果 作为 数值 ) ，42 
performance measure (性 能 度量 ) 180t, 182t 
support vector machine algorithm for (支持 向 量 
机 算法 用 于 ) ，227-228 
numeric prediction (local linear model) 
(局 部 线性 模型 ) ) 251-261 
building tree (创建 树 )，253 
locally weighted linear regression (局 部 加 权 线 
性 回归 ) 259-261 
model tree induction (模型 树 归 纳 ) 255-257 
model tree (模型 树 ) 252 
nominal attribute (名 目 属 性 ) ，254 
pruning tree ( 剪 梳 树 ) 253-254 
rules from model tree (由 模型 树 得 到 规 
则 ) ，259 
numeric threshold (数值 冰 值 ) 193 
numeric- attribute problem (数值 属性 问题 ) 10-11 
NumericCleaner filter ( NumericCleaner 过 滤器 )， 


(数值 预测 


4331-4351, 438 

NumericToBinary filter ( NumericToBinary if YË #3) , 
4331-4351, 439 

NumericToNominal filter ( NumericToNominal 过 滤 
器 ) 4331-4351, 439 

NumericTransform filter ( NumericToNominal 过 YE 
$8), 433t-435t 


O 


‘Obfuscate filter ( Obfuscate 过 滤器 ) 433t- 435t, 
441 
object editor (对象 编辑 器 ) 404 
generic (通用 的 )，417f 
objects (Weka) (对 象 (Weka) ) 520 
Occam’s Razor ( 奥 卡 姆 剃刀 ) 183, 185, 361 
one-class learning (一 分 类 学 习 ) , 307, 335-337 
multiclass classifier (多 类 分 类 器 ) ，336 
outlier detection ( 离 群 点 检测 ) 335-336 
one- dependence estimator ( 单 依赖 估计 器 ) 269 
OneR algorithm. ( OneR 算法 ) , 446t-450t, 505 
output (输出 ) 458f 
visualizing (可 视 化 ) , 571-572 
OneRAttributeEval method ( OneRAttributeEval Fy 
法 ) 4891, 491 
one-tailed probability 〈 单 尾 概率 ) 151 
one-vs. -rest method (一 对 多 方法 ) 338 
OPTICS algorithm ( OPTICS $$ 法 )，480t，484- 
485, 485f 
option trees (选择 树 ) , 365-368 
as alternating decision tree (作为 交替 式 决 策 
树 ) ，366-368 ，367f 
decision trees versus (决策 树 与 ) ，365-366 
example (例子 ) 366f 
generation (生成 ) 366 
OR (X), 233 
order-independent rule (顺序 独立 的 规则 ) 115 
orderings (排序 ) ，50 
circular (循环 的 ) 51 
partial ( 偏 ) 51 
ordinal attribute (有 序 属 性 ) 50 
coding of (的 编码 ) ，51 
OrdinalClassClassifier algorithm. ( OrdinalClassClassifi- 
er 算法) 475t, 479 
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orthogonal coordinate system ( 正 交 的 坐标 系统 )， 
324 
outlier ( 离 群 点 ) 335 
detection of (的 检测 ) , 335-336 
output (输出 ) 
aggregating (聚集 ) ，142 
cluster (RÆ), 81 
instance-based representation (基于 实例 的 表 
7K), 78-81 
knowledge representation (知识 表示 ) , 85-145 
linear model (线性 模型 ) 62-63 
rule (规则 ) , 67-77 
table (#2), 61-62 
tree (55) , 64-67 
overfitting ( 过度 拟 合 ) 88 
for 1R (对 于 1R)，88 
backpropagation and ( 反 向 传播 与 ) 238b-239b 
forward stagewise additive regression and (前 向 
逐步 累加 回归 和 ) , 363 
support vector and (支持 向 量 机 和 ) , 226 
overfitting- avoidance bias (避免 过 度 拟 合 偏差 ) , 
32-33 
overlay data ( 重 秋 数据) 52 


P 


PaceRegression algorithm ( PaceRegression 算法 )， 
446t-450t, 462 
packages (42), 519-520, 3 Weka 
weka. associations, 525 
weka. attributeSelection, 525 
weka. classifiers, 523-525 
weka. clusterers, 525 
weka. core, 520-523 
weka. datagenerators, 525 
weka. estimators, 525 
weka. filters, 525 
PageRank, 21, 375-376, 390 
recomputation (重新 计算 ) 391 
sink (陷阱 ) ，392 
in Web mining ( Web 挖掘 中 ) 391-392 
pair-adjacent violator ( PAV) algorithm ( pair- adja- 
cent violator (PAV) 算法 ) 345-346 
paired t-test ( X] t REM), 157 


pairwise classification (成 对 分 类 ) , 339 
pairwise coupling (成 对 耦合 ) 339 
parabolas (抛物 线 ) 248-249 
parallelization (34714) , 379 
PART algorithm ( PART $$ 35 ), 411- 413, 446t- 
450t, 460f-461f 
partial decision tree (局 部 决策 树 ) 
best leaf (最 好 的 叶子 结 点 ) ，212 
building example (构建 的 例子 ) 211f 
expansion algorithm (扩展 算法 ) ，210f 
missing value (缺失 值 ) 212 
obtaining rule from (获取 规则 从 ) , 208-212 
partial least- squares regression ( fj Ex /| — Æ), 
326-328 
partial ordering ( 偏 序 ) 51 
PartitionedMultiFilter filter ( PartitionedMultiFilter 过 
滤器 ) 4331-4351, 437-438 
partitioning (划分 ) 
for 1R, 88 
discretization (离散 化 ) 87 
instance space (实例 空间 ) ，80f 
training set (训练 集 ) 195 
PAV， 见 pair-adjacent violators algorithm 
perceptron learning rule (感知 机 学 习 规 则 ) , 128 
illustrated (示例 ) 129f 
updating of weight (更 新 权 值 ) ，130 
perceptrons (感知 机 ) 129 
instance presentation to (将 实例 放 人 )，129 
kernel ( 核 ) 231-232 
linear classification using (线性 分 类 器 使 用 ) , 
127-129 
multilayer (多 层 ) 232-241 
voted (投票 ) ，231-232 
performance (性 能 ) 
classifier (分 类 器 ) predicting (预测 ) , 149 
comparison (比较 ) 147 
error rate and (误差 率 和 ) , 148 
evaluation (评估 ) ，148 
instance-based learning (基于 实例 的 学 习 )， 


246 
for numeric prediction (用 于 数值 预测 )， 
180t, 182t 


optimization in Weka (Weka 中 的 优化 ) 478-479 
predicting (预测 ) 150 
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text mining (文本 挖掘 ) , 386-387 
personal information use (个 人 信息 使 用 ) 34-35 
PKIDiscretize filter ( PKIDiscretize 过 滤器 )，433t- 
435t, 438 
PLSClassifier algorithm ( PLSClassifier 算法 )，446t- 
450t, 462 
PLSFilter filter ( PLSFilter 
445, 462 
Poisson distribution ( 泊 松 分 布 ) 290 
postpruning (后 剪 枝 ) 195 
subtree raising ( 子 树 提升 ) 196-197 
subtree replacement ( 子 树 置换 ) ，195-196 
prediction (预测 ) 
with Bayesian network ( HH Dl nr Sy Pj 2& ), 
262-266 
multiclass (多 类 ) 164 
node ( 结 点 ) ，366-367 
outcome (结果 ) 164, 164t-165t 
three-class (三 类 ) 165t 
two-class (两 类 ) ，164t 
PredictionAppender, 499-500, 499t 
PredictiveApriori rule learner ( PredictiveApriori 规则 
学 习 器 ) 486t, 487 
preprocessing technique ( 预 处 理 技术 ) 574-578 
prepruning ( 预 前 枝 ) 195 
principal component analysis ( 主 成 分 分 析 )， 
324-326 
of dataset (数据 集 的 ) ，325f 
principal component ( 主 成 分 ) 325 
recursive (递归 的 ) 326 
principal components regression ( 主 成 分 回归 ) , 326 
PrincipalComponents filter ( PrincipalComponents 过 
滤器 ) 4331-435t, 439 
method ( PrincipalComponents 


过 滤 器 ), 4441, 


PrincipalComponents 
方法 ) 489t, 491 

principle of multiple explanation (多 种 解释 原理 ) , 
186 

prior knowledge ( 先 验 知识 ) 385 

prior probability ( 先 验 概率 ) 92-94 

Prism algorithm (Prism 算法 ) ，446t-450t 

PRISM method (PRISM 方法 ) 114-115, 215 

probability (概率 ) 
class (类 ) calibrating (校准 ) 343-346 
maximizing (最 大 化 ) 185 


one-tailed ( 单 尾 ) 151 
predicting (预测 ) 159-163 
probability density function relationship (概率 密 
ERK), 96 
with rule (规则 ) , 12-13 
probability density function (概率 密度 函数 ) 96 
probability estimate (概率 估计 )，262 
probability- based clustering (基于 概率 的 聚 类 )， 
285-286 
programming by demonstration (演示 编程 ) ，396 
projection (投影 ) J data projection 
proportional k-interval discretization (均衡 大 区 间 离 
散 化 ) ，316 
PropositionalToMultilnstance filter ( PropositionalTo- 
Multilnstance 过 滤器 ) ，433t-435t，440 
Pruning ( 9t) 
cost-complexity (成 本 — 复杂 度 ) 202 
decision tree (决策 树 ) 195-197 
example illustration (示例 ) ，199f 
incremental reduced-error ( 增 量 减少 -误差 )， 
206, 207f 
model tree (模型 树 ) , 253-254 
noisy exemplar (噪声 样本 ) 245-246 
postpruning (后 剪 枝 ) 195 
prepruning ( 预 前 枝 ) 195 
reduced-error (减少 -误差 ) 197, 206 
rules (规则 ) ，200-201 
subtree lifting ( 子 树 提 升 ) 199-200 
subtree raising ( 子 树 提 升 ) ，196-197 
subtree replacement ( 子 树 置 换 ) 195-196 
pruning set ( 剪 枝 集 ) 205-206 


Q 
quadratic loss function (二 次 损失 函数 ) , 160-163 
R 


RacedIncrementalLogitBoost algorithm ( RacedIncre- 
mentalLogitBoost 算法 ) , 475t, 476-477 

race search (竞赛 搜索 ) , 313 

RaceSearch method ( RaceSearch 方法 ) 490t, 493 

radial basis function ( RBF, #4 mÆ), 241-242 
kernel (f£), 227 
network (网 络 ) 227 
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output layer (输出 层 ) 241-242 

random projection (随机 投影 ) 326 

random subspace (随机 子 空间 ) 357 

RandomCommittee algorithm ( RandomCommittee 算 
YE), 4751, 476 

RandomForest algorithm ( RandomForest 算 法 )， 
4461t-450t 

Randomization ( 随机 化 ) 356-358 
bagging versus (484855), 357 
results (结果 ) , 356-357 
rotation forest (旋转 森林 ) , 357-358 
in Weka (Weka 中 ) 474-476 

Randomize filter (Randomize 过 滤器 ) , 441t, 442 

randomizing ( 随机 化 ) 
unsupervised attribute filter (无 监督 属性 过 滤 

器 ) ，441 
unsupervised instance filter (无 监督 实例 过 滤 
器 ) 442 

RandomProjection filter ( RandomProjection 过 滤器 ) , 
433t-435t, 441 

RandomSearch method ( RandomSearch 方法 )， 
490t, 493 

RandomSubset filter ( RandomSubset 过 滤器 ) , 433t- 
435t, 437, 476 

RandomSubSpace algorithm ( RandomSubSpace # 
YE), 475t 

RandomTree algorithm ( RandomTree 算法 ) 446t- 
4501, 455 

Ranker method (Ranker 77#), 490-491, 490t, 494 

RankSearch method ( RankSearch 7j 3), 490t, 
493-494 

ratio quantities ( 比率 值 ) 50 

RBF, J radial basis function 

RBFNetwork algorithm ( RBFNetwork 算法 ) 446t- 
450t, 467-469 

recall- precision curve (召回 率 - 准确 率 曲 线 )， 
174-175 
AUPRC, 177 
points on (上 的 点 ) ，179 

rectangular generalization (和 矩形 泛 化 ) 79 

recurrent neural network (回复 式 神 经 网 络 )， 
238b-239b 

recursive feature elimination (递归 特征 消除 )， 
309-310 


reduced-error pruning (减少 - 误差 前 枝 ) 206, 238 
incremental ( 增 量 ) 206, 207f 
reference density (参考 密度 ) 337 
reference distribution (参考 分 布 ) 337 
regression (回归 ) , 15, 62 
additive ( 累加 ) , 362-365 
isotonic (RFF), 345 
kernel ridge ( 核 岭 ) 229-231 
linear (线性 ) ，124-125 
locally weighted (局 部 加 权 ) 259-261 
Logistic, 125-127 
partial least-squares ( 偏 最 小 二 乘 ) 326-328 
principal component ( 主 成 分 ) 326 
robust (稳健 ) ，333-334 
support vector (支持 向 量 ) 227-229 
regression equation (回归 方程 ) 15 
regression table (回归 表 ) , 61-62 
regression tree ( [BI ) , 67, 251 
illustrated (ANP), 68f 
RegressionByDiscretization 
ByDiscretization 算法 ) , 475t, 479 
regularization (正规 化 ) 244 
reidentification (再 识别 ) , 33-34 
RELAGGS filter ( RELAGGS 过 滤器 ) ，433t- 4351, 
440 
RELAGGS system ( RELAGGS 系统 ) 302-303 
relations (关系 ) 43-46 
ancestor-of (祖先 ) 46 
sister-of (姐妹 ) 43f, 45t 
superrelation (超级 关系 ) 44-46 
relation- valued attribute (赋值 关系 属性 ) 54-55 
instance (实例 ) , 56-57 
specification ( 明确 表述 ) 55 
relative- absolute error (相对 绝对 误差 ) 181 
relative- squared error (相对 平方 误差 ) 181 
RELIEF (Recursive Elimination of Feature， 递 归 特 
征 消 除 ) ，346 
ReliefFAttributeEval method (ReliefFAttributeEval 方 
法 ) 4891, 490-491 
reloading dataset (重新 载 人 数据 集 ) 418-419 
Remove filter ( Remove 过滤 器) 433t-435t, 436 
RemoveFolds filter ( RemoveFolds 过 滤器 ) lt, 
442 


RemoveFrequentValues filter ( RemoveFrequentValues 


algorithm ( Regression- 
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过 滤器 ) 441t, 442 
RemoveMisclassified filter ( RemoveMisclassified 过 滤 
器 ) Mlt, 442 
RemovePercentage filter ( RemovePercentage 过 YË 
$&), 441t, 442 
RemoveRange filter ( RemoveRange it JE $* ), 
441t, 442 
RemoveType filter ( RemoveType id JE 器 ) 433t- 
435t, 436 
RemoveUseless filter ( RemoveType 过 滤器 ) 433t- 
435t, 436 
RemoveWithValues filter ( RemoveWithValues it Xë 
ae), 441t, 442 
Reorder filter ( Reorder if JE #$) , 433t-435t, 437- 
438 
repeated holdout (重复 旁 置 法 ) 152-153 
ReplaceMissingValues filter ( ReplaceMissingValues 
过 滤器 ) 4331-4351, 438 
replicated subtree problem (重复 子 树 问 题 ) ，69 
decision tree illustration (决策 树 示 例 ) ，71f 
REPTree algorithm ( REPTree 算 法 ) 446t- 
450t，456 
Resample filter ( Resample 过 滤 28), 441t, 442, 
444t, 445 
reservoir sampling ( Kil FÉ) , 330-331 
ReservoirSample filter ( ReservoirSample 过 滤器 )， 
441t, 442 
residual (5235), 327, 368-369 
resubstitution error (再 带 人 误差 ) 148-149 
retargeting classifier (重新 调整 分 类 器 ) in Weka 
(Weka 中 ) ，479 
Ridor algorithm (Ridor 算法 ) ，446t-450t，459 
RIPPER algorithm ( RIPPER 算 法 )，208， 
209f, 215 
ripple-down rule ( 链 波 下 降 规 则 ) 216 
robo-soccer (机 器 人 足球 ) 394 
robust regression (稳健 回归 ) 333-334 
ROC curve (ROC 曲线 ) 172-174, 581 
AUC (曲线 下 面积 ) 177 
from different learning scheme (从 不 同 的 学 习 
方案 ) ，173-174 
generating with cross-validation (用 交叉 验证 生 
成 ) 173 
jagged (锯齿 的 ) 172-173 


points on (上 的 点 ) ，179 
sample (抽样 ) ，173f 
for two learning scheme (两 个 学 习 方 案 的 )， 
174f 
rotation forest (旋转 森林 ) , 357-358 
RotationForest algorithm ( RotationForest 算 法 ), 
475t, 476 
rote learning (死记 硬 背 的 学 习 ) , 78 
row separation ( 行 分 隔 ) , 340 
rule set (规则 集 ) 
model trees for generating (模型 树 用 于 生 
成 ) ，259 
for noisy data (对 于 噪声 数据 ) 203 
visualizing ( 可视化 ) 573 
rule (规则 ) , 10, 67-77 
antecedent of (前 件 ) 67 
association (关联 ) 11, 72-73, 216-223 
classification (分 类 ) , 11, 69-72 
computer- generated (计算 机 产生 的 ) 19-21 
consequent of (后 件 ) 67 
constructing (构建 ) 108-116 
decision list versus (决策 列表 ) , 115-116 
decision tree (决策 树 ) 200-201 
efficient generation of (有 效 生 成 ) 122-123 
with exception (包含 例外 ) , 73-75, 212-215 
expert- derived (专家 产生 的 ) ，19-21 
expressive (有 表现 力 的 ) ，75-77 
inferring (Wr), 86-90 
from model tree (从 模型 树 ) 259 
order-independent (顺序 独立 的 ) 115 
perceptron learning (感知 机 学 习 ) , 128 
popularity ( 受 欢迎 )，70-71 
PRISM method for constructing ( PRISM 方法 用 
于 构建 ) 114-115 
probability 〈 概率) 12-13 
pruning (894%), 200-201 
ripple-down (£ FÆ), 216 
tree versus ( 树 与 ) 109-110 
Weka algorithm ( Weka 算 法 ) ，446t- 450t， 
457-459 


S 


Sampling (抽样 ) ，307，330-331， 见 data transfor- 


* g] — 4357 





mation 
with replacement (有 放 回 ) , 330-331 
reservoir ( £zK ith) , 330-331 
without replacement. (无 放 回 ) , 330 
ScatterPlotMatrix, 498, 4991 
ScatterSearchV1 method ( ScatterSearchV1 7j 1E ) , 
490t, 494 
schemata search (模式 搜索 ) 313 
scheme- independent attribute selection (独立 于 方案 
的 属性 选择 ) 308-310 
filter method (过 滤器 方法 ) 308-309 
instance-based learning method (基于 实例 的 学 
习 方 法 ) ，310 
recursive feature elimination (递归 特征 消除 )， 
309-310 
symmetric uncertainty ( 对 称 不 确定 性 ) 310b 
wrapper method (包装 方法 ) 308-309 
scheme- specific attribute selection. (具体 方案 相关 的 
属性 选择 ) ，312-314 
accelerating (加 速 ) ，313 
paired t-test (配对 上 检验 ) 313 
race search (竞赛 搜索 ) 313 
result (结果 ) ，312-313 
schemata search (模式 搜索 ) 313 
selective Naive Bayes (选择 性 朴素 贝 叶 
斯 ) 314 
scheme- specific option (具体 方案 相关 的 选择 )， 
528t, 529 
scientific application (科学 应 用 ) 28 
screening image (图 像 筛 选 ) 23-24 
SDR, J standard deviation reduction 
Search (1822), generalization as (17215) , 29 
search bias (搜索 偏差 ) 32 
search engine (18 2€ 5| $E) , in Web mining ( Web 
挖掘 中 ) 21-22 
search method ( Weka) (搜索 方法 ( Weka)), 
421, 490t 
seed (种 子 ) 139 
selective Naive Bayes (选择 性 朴素 贝 叶 斯 ) 314 
semantic relationship (语义 关系 ) ，384 
semisupervised learning ( 半 监 督学 习 ) ，294-298 
clustering for classification ( 聚 类 用 于 分 类 ) ， 
294-296 


co-EM, 297 
co-training (协同 训练 ) 296 

separate- and- conquer algorithm ( 变 治 算法 ) 115- 
116，308 

SerializedClassifier algorithm ( SerializedClassifier 算 
法 ) 474 

SerializedModelSaver, 499-500, 499t 

set kernel (集合 核 ) 301 

shapes problem (形状 问题 ) ，75 
illustrated (示例 图 )，76f 
training data (训练 数据 ) ，76t 

sIB algorithm (sIB 算法 ) 480t, 485 

Sigmoid function (Sigmoid 函数 ) 236f 

Sigmoid kernel (Sigmoid £z) , 227 

SimpleCart algorithm ( SimpleCart 算法 ) , 4461-4501, 
456 

SimpleKMeans algorithm ( SimpleKMeans # iX), 
480-481, 480t, 481f 

SimpleLinearRegression algorithm ( SimpleKMeans 算 
法 ) 446t-450t, 459, 461f 

SimpleLogistic algorithm ( SimpleLogistic 算 法 )， 
4461-450t, 467 

SimpleMI algorithm ( SimpleMI 算法 ) 446t- 450t, 
473-474 

single-attribute evaluator ( 单 属性 评估 器 ) 490-492 

single- consequent rule ( 单 后 件 规则 ) ，123 

single-linkage clustering algorithm ( 单 链接 聚 类 算 
ik), 275, 279 

skewed dataset (不 均衡 的 数据 集 ) , 135 

SMO algorithm (SMO 算法 )，446t-450t，462，463f- 
467f 

smoothing calculation (平滑 计算 公式 ) 252 

SMOreg algorithm (SMOreg 算法 ) ，446t-450t，462 

SMOTE filter (SMOTE 过 滤器 ) ，444t, 445 

soybean classification example (大 豆 分 类 例子 ) 5 
dataset (数据 集 ) 20t 
example rule ( 样 例 规则 ) ，19 

sparse data (稀疏 数据 ) 56 

sparse instance (MKH), 442 

SparseToNonSparse filter ( SparseToNonSparse it yë 
$8), 441t, 442 

SPegasos algorithm ( SPegasos $E 法 ) 446t- 450t, 
464 
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splitter node (分 裂 结 点 ) , 

splitting (分 裂 ) 281 
cluster (RÆ), 274 
criterion (准则 ) ，253 
model tree node (模型 树 结 点 ) 255 

SpreadSubsample filter ( SpreadSubsample 过 滤器 ) , 
444t，445 

SQLViewer，419 

squared error (平方 误差 ) ，161 

stacking (HER), 334, 369-371 
defined (和 定义 ) 144, 369 
level-O model (0 层 模型 ) 370-371 
level-1 model (1 层 模型 ) 369-371 
model input. (模型 输入 ) , 369 
output combination (组 合 输出 ) ，369 
as parallel ( 并行 的 ) ，379 

Stacking algorithm (Stacking 算法 ) , 4751, 477 

StackingC algorithm (StackingC $$3£) , 475t, 477 

standard deviation from the mean (距离 平均 值 的 标 
准 差 ) 151 

standard deviation reduction (SDR， 标 准 差 减少 
fH), 253, 254 

Standardize filter ( Standardize it JE 器 ), 433t- 
435t, 437 

standardizing statistical variable (标准 化 统计 变 
量 ) 57 

statistical clustering (统计 聚 类 ) 314-315 

statistical modeling (统计 建 模 ) ，90-99 

statistics (统计 ) machine learning and (机 器 学 习 
和 ) , 28-29 

step function ( 阶 牙 函数 ) 236f 

stochastic backpropagation (随机 反 向 传播 )， 
238b-239b 

stochastic gradient descent (随机 梯度 下 降 )， 
242-243 

stopword ( 停 用 词 ) 329, 387 

stratification (分 层 ) 152 
variation reduction (减少 变化 ) 153-154 

stratified holdout (44225 8.) , 152 

stratified threefold cross-validation ( 4)Jz 3 折 交 义 验 
iE), 153 

: StratifiedRemoveFolds filter ( StratifiedRemoveFolds 
过 滤器 ) 444t, 445 

StreamableFilter keyword ( StreamableFilter X 键 


366-367 


=), 526 

string attribute (字符 串 属性 ) 54 
in document classification (文档 分 类 中 )， 

579-580 

specification (说 明 ) 54 
value (fü), 54 

StringToNominal filter ( StringToNominal 过 滤器 )， 
4331-4351, 439 

StringToWordVector filter ( StringToWordVector 过 滤 
38). 419, 4331-435t, 439-440, 538 
default (默认 的 ) 581 
option (选项 ) , 581 

StripChart, 498, 499t 

structural description (结构 的 描述 ) 5-7 
decision tree (决策 树 ) 5 
learning technique (学 习 技 术 ) 8-9 

structure learning by conditionalindependence test (条 
件 独立 测试 的 结构 学 习 ) 270 

Student's distribution with k — 1 degrees of freedom 
CB HUE k - 1 的 学 生 分 布 ) 157 

Student's t-test (4# t RE), 157 

subgradient (次 梯度 ) 242 

subsampling (二 次 抽样 ) ，442 

SubsetByExpression filter ( SubsetByExpression ii i£ 
器 ) 441t, 442 

SubsetSizeForwardSelection method ( SubsetSizeFor- 
wardSelection 方法 ) , 490t, 492-493 

subtree lifting ( 子 树 提 升 ) 199-200 

subtree raising ( 子 树 提 升 ) 196-197 

subtree replacement ( 子 树 置 换 ) ，195-196 

success rate (成 功率 )，error rate and (误差 率 
和 ) ，197-198 

superparent one- dependence estimator ( 超 父 单 依赖 
估计 器 ) ，269 

superrelation (超级 关系 ) , 44-46 

supervised discretization (有 监督 的 离散 化 )， 
316, 574 

supervised filter ( 有 监督 的 过 滤器 ) 432, 443-445 
attribute (JAPE), 443-445 
instance (实例 ) , 445 
using (使 用 ) 432 

supervised learning (有 监督 的 学 习 ) , 40 

support (支持 度 ) of association rule (关联 规则 
的 ) 72, 116 
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support vector machines (SVM， 支 持 向 量 机 ) 191- 
192 
co-EM with (和 co-EM) ，297 
hinge loss ( 合 页 损失 ) 242-243 
linear model usage (线性 模型 使 用 ) 223 
term usage (JB T fii Hj) , 223 
training (训练 ) 225 
weight update (更 新 权 值 ) 243 
support vector regression (支持 向 量 回归 ) , 227-229 
flatness maximization (平面 度 最 大 化 ) 229 
illustrated (示例 图 ) 228f 
for linear case (对 于 线性 情况 ) 229 
linear regression difference (线性 回归 的 不 
同 ) ，228 
for nonlinear case (对 于 非 线 性 情况 ) ，229 
support vector (支持 向 量 )，191-192, 225 
finding (寻找 ) 225 
overfitting and (过 度 拟 合 ) ，226 
SVMAttributeEval method ( SVMAttributeEval 方法 ) , 
4891, 491 
SwapValues filter ( SVMAttributeEval id JE 38), 
4331-4351, 438 
symmetric uncertainty ( 对 称 不 确定 性 ) 310b 
SymmetricalUncertAttributeEval method ( Symmetri- 
calUncertAttributeEval 方法 ) 489t, 491 


T 
tables (#2) 
as knowledge representation (作为 知识 表示 ) , 
61-62 


regression (回归 ) , 61-62 
tabular input format. (表格 输入 格式 ) 124 
TAN, J tree-augmented Naive Bayes 
teleportation (#2 FE BEE) , 392 
tenfold cross-validation (10 折 交 叉 验 证 ) 153-154, 
306 
Tertius rule learner (Tertius 规则 学 习 器 ) , 486t, 487 
testing (测试 ) 148-150 
test data (测试 数据 ) 149 
test sets (测试 集 ) ，149 
in Weka (Weka 中 ) ，422-424 
TestSetMaker, 499-502, ，499t 
text mining (文本 挖掘 ) , 386-389 


data mining versus (数据 挖掘 ) 386-387 
document classification (文档 分 类 ) , 387-388 
entity extraction (实体 提取 ) 388 
information extraction (信息 抽取 ) 388-389 
metadata extraction (元 数据 提取 ) , 388 
performance (PERE) 386-387 
stopword 〈 停 用 词 ) 387 
text summarization (文本 摘要 ) , 387 
text to attribute vector. (从 文本 到 属性 向 量 )， 
328-329 
TextViewer, 499t 
theory (理论 ) 183 
exceptions to 〈 例 外 ) , 183 
MDL principle and (MDL 原理 ) 183-184 
threefold cross-validation (3 fra: X. WE) , 153 
three- point average recall (3 点 平均 召回 率 ) 175 
ThresholdSelector algorithm ( ThresholdSelector 4$ 
法 ) 475t, 479 
time series (时 间 序 列 ) , 330 
Delta，330 
filters for (过 滤器 用 于 ) ，440 
timestamp attribute (时 间 惟 属性) 330 
TimeSeriesDelta filter ( TimeSeriesDelta 过 滤器 )， 
4331-4351, 440 
TimeSeriesTranslate filter ( TimeSeriesTranslate 过 滤 
器 ) 433t-435t, 440 
timestamp attribute (时 间 稚 属性 ) 330 
tokenization (分 词 ) 328-329, 440 
top-down induction ( 自 顶 向 下 的 归纳 ) of decision 
trees (决策 树 的 ) 107-108 
toSource() method (toSource() 方 法 ) , 550-553 
training (训练 ) 148-150 
data (数据 ) ，149 
data verification (验证 数据 ) 569 
document (文档 ) 579t 
instance (实例 ) , 184 
learning scheme ( Weka) 
ka)), 422-424 
support vector machine (支持 向 量 机 )，225 
training set (训练 集 ) 147 
error (误差 ) 197 
error rate (误差 率 ) 148 
partitioning ( 分裂 ) 195 
size effect (大 小 的 影响 ) 569t 


(学 习 方 案 (We- 
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TrainingSetMaker, 499-502, 499t 
TrainTestSplitMaker, 499-500, 499t 
tree diagram ( 树 图 ) JL dendrogram 
tree-augmented Naive Bayes (TAN, WEI EFA IN 
叶 斯 ) 269 
tree ( 树 ) ，64-67， 见 decision tree 
AD, 270-272, 27M 
ball (BR), 135-137 
frequent- pattern (频繁 模式 ) 216-219 
functional ( PAX) , 65 
Hoeffding, 382-383 
kD, 132-133, 133f-134f 
logistic model ( Logistic 模型 ) , 368-369 
metric ( Æ), 137-138 
model (模型 ) 67, 68f, 251-252 
option (选择 ) 365-368 
regression (回归 ) , 67, 68f, 251 
rules versus (规则 ) , 109-110 
Weka algorithm (Weka 算法 ) 416, 446t-450t 
tree package (tree 包 ) , 519-520 
true negative (TN， 真 负 例 ) 164, 580 
true positive rate (真正 率 ) 164 
true positive (TP， 真 正 例 ) 164, 580 
t-statistic (t 统计 量 )，158-159 
t-test (1 检验) , 157 
corrected resampled (纠正 重复 取样 ) 159 
paired (配对 ) ，157 
two-class mixture model (两 类 混合 模型 ) 286f 
two-class problem (二 分 类 问题 ) 75 
typographic error ( 印刷 错误 ) ，59 


U 


ubiquitous computing (无 处 不 在 的 计算 ) 395-396 
ubiquitous data mining (无 处 不 在 的 数据 挖掘 ) , 
395-397 
univariate decision tree ( 单 变量 决策 树 ) 203 
unmasking (揭示 ) 394-395 
unsupervised attribute filter (无 监督 的 属性 过 滤 
器 ) ，432-441， 见 filtering algorithm; filter 
adding/removing attribute ( 添加 /删除 属性 )， 
436-438 
changing value (改变 取 值 ) 438 
conversion (转换 ) , 438-439 


list of (列表 ) , 433t-435t 
multi-instance data (多 实例 数据 ) , 440 
randomizing (随机 化 ) 441 
string conversion (字符 串 转换 ) ，439-440 
time series (时 间 序 列 ) ，440 
unsupervised discretization (无 监督 的 离散 化 )， 
316, 574 
unsupervised instance filter (无 监督 的 实例 过 滤 
器 ) ，441-442 
list of (列表 ) , 441t 
randomizing ( 随机 化 ) 442 
sparse instance (MKH), 442 
subsampling (二 次 抽样 ) ，442 
UpdateableClassifier keyword (UpdateableClassifier 关 
键 词 ) ，526 
updateData() method (updateData() 方 法 ) , 536-537 
User Classifier ( Weka) , 65, 424-427 
segmentation data with (分 割 数据 使 用 ) 428f 
UserClassifier algorithm ( UserClassifie 算法 ) 446t- 
450t, 570 


V 


validation data (验证 数据 ) 149 
validation set (验证 集 ) 379 
variables (变量 ) standardizing (标准 化 ) 57 
variance (方差 ) 354 
Venn diagram ( 维 恩 图 )，in cluster representation 
(REFER AES) 81 
VFI algorithm ( VFI 算法 ) , 417, 4461-450t 
visualization ( 可视化 ) 
Bayesian network ( 贝 叶 斯 网 络 ) , 454f 
classification error (分 类 误差 ) 565 
decision tree (决策 树 ) 573 
Naive Bayes (朴素 贝 叶 斯 ) 573 
nearest- neighbor learning (最 近邻 学 习 ) , 572 
OneR, 571-572 
rule set (规则 集 ) , 573 
in Weka (Weka FP) , 430-432 
Visualize panel (Visualize 面板 ) ，430-432 562 
Vote algorithm (Vote #7), 4751, 477 
voted perceptron (投票 感知 机 ) , 197 
VotedPerceptron algorithm ( VotedPerceptron 算法 ) , 
4461-450t, 464 
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voting feature interval (投票 特征 区 间 )，defined 
(和 定义) 138 


W 


WAODE algorithm (WAODE 算法 ) 446t-450t, 451 
Wavelet filter (Wavelet 过 滤器 ) 4331-435t, 439 
weather problem example (天 气 问 题 例 子 ) 9-12 
alternating decision tree (交替 式 决策 树 ) ，367f 
ARFF file for (ARFF 文件 ) ，53f，409f 
association rule (关联 规则 ) , 11, 120t-121t 
attribute space (属性 空间 ) , 311f 
attribute (JRE), 9-10 
attribute evaluation (属性 评估 ) , 87t 
Bayesian network visualization ( 贝 叶 斯 网 络 可 
视 化 ) ，454f 
Bayesian network ( 贝 叶 斯 网 络 ) 263f, 265f 
clustering (RÆ), 280f 
counts and probability (统计 数 和 概率 ) 91t 
CSV format for (CSV 格式 )，409f 
data with numeric class (有 数值 类 的 数 
据 ) 42t 
dataset (数据 集 ) 10t 
decision tree (决策 树 )，103f 
EM output (EM 输出 ) ，482f 
expanded tree stump (扩展 的 树桩 ) ，102f 
FP-tree insertion (FP 树 插 人) ，217t-218t 
identification code (标识 码 ) 106t 
item set (项 集 ) 117t-118t 
multi- instance ARFF file (多 实例 ARFF X 
fF), 5Sf 
NaiveBayes output ( NaiveBayes 输出 ) , 452f 
numeric data with summary statistics. (有 统计 汇 
总 的 数值 数据 ) , 95t 
option tree (选择 树 ) 366f 
SimpleKMeans output ( SimpleKMeans 输出 )， 
481f 
tree stump (树桩 ) , 100f 
Web mining (Web 挖掘 ) 5, 389-392 
PageRank algorithm (PageRank 算法 ) , 390-392 
search engine (搜索 引擎 ) 21-22 
teleportation ( 超 距 跳 转 ) 392 
wrapper induction (包装 器 归纳 )，390 
weight decay ( 权 值 衰减 ) ，238b-239b 


weighting attribute ( 属性 加 权 ) 


instance-based learning (基于 实例 的 学 习 )， 
246-247 

test (测试 ) ，247 

updating (更 新 ) 247 


weight (fü) 


determination process (确定 的 过 程 ) 15 
with rule (规则 的 ) 12-13 


Weka，403-406 


advanced setup (高 级 设置 ) 511-512 

ARFF format ( ARFF 格式 ) 407 

association rule mining (关联 规则 挖掘 )， 
582-584 

association rule (关联 规则 ) , 429-430 

association- rule learner (关联 规则 学 习 器 )， 
485-487 

attribute selection (属性 选择 ) , 430, 487-494 

clustering (RÆ), 429 

clustering algorithm ( 聚 类 算法 ) 480-485 

command-line interface (命令 行 界面 )，519- 
530 

components configuration and connection (配置 
及 连接 组 件 ) ，500-502 

CPU performance data (CPU 性 能 数据 ) ，423f 

data preparation (准备 数据 ) 407 

development of (JF), 403 

evaluation component (评估 组 件 )，498- 500, 
499t 

experiment distribution (实验 分 布 ) 515-517 

Experimenter, 405, 505-517 

Explorer, 404, 407-494 

filtering algorithm (过 滤 算 法 ) 432-445 

Generic Object Editor (通用 对 象 编 辑 器 ) ，417f 

GUI Chooser panel (GUI 选择 面板 ) ，408 

how to use (如 何 使 用 ) , 404-405 

incremental learning ( 增 量 学 习 ) , 502-503 

interface (界面 ) 404-405 

ISO-8601 date/time format (JISO- 8601 日 期 /时 
间 格 式 ) ，54 

Knowledge Flow，404-405 ，495-503 

learning algorithm. (学 习 算法 ) 445-474 

learning scheme creation (创建 学 习 方案 )， 
539-557 : 

market basket analysis (购物 篮 分 析 ) 584-585 
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message classifier application (消息 分 类 应 用 ) , 
531-538 
metalearning algorithm (元 学 习 算 法 )， 
474-479 
neural network (神经 网 络 ) ，469-472 
package ( 包 ) 519-525 
search method (搜索 方法 ) ，492-494 
simple setup (简单 设置 ) 510-511 
structure of (结构 ) 519-526 
User Classifier facility ( User Classifier 设备 )， 
65, 424-427 
visualization (可 视 化 ) 430-432 
visualization component ( 可视化 组 件 ) , 498- 
500, 499t 
weka. associations package ( weka. associations 包 ) ， 
525 
weka. attributeSelection package ( weka. attributeSe- 
lection 包 ) , 525 
weka. classifiers package ( weka. classifiers  ), 
523-525 
DecisionStump class ( DecisionStump 2), 523, 
524f 
implementations (实现 ) 523 
weka. classifiers. trees. I3, 539-555 
buildClassifier () method ( buildClassifier () 77 
ik), 540 
classifyInstance () method ( classifyInstance () 77 
1k), 549-550 
computeInfoGain () method ( computeInfoGain ( ) 
Jrik), 549 
getCapabilities () method ( getCapabilities () 77 
法 ) 539 
getTechnicalInformation () method ( getTechni- 
calInformation() 7r 1&) , 539 
globalInfo() method (globalImfo() 方 法 ) 539 
main() method (main() 方 法 ) 553-555 
makeTree () method ( makeTree () 方法 )， 
540-549 
Sourcable interface (Sourcable 界面 ) 539, 550 
source code ( 源 代 码 ) 541f-548f 
source code for weather example (天 气 例子 的 源 
代码 ) 551f-553f 


TechnicalInformationHandler interface ( Techni- 


calInformationHandler 界面 ) , 539 
toSource() method (toSource() 方 法 ) 550-553 
weka. clusterers package ( weka. clusterers 包 ) , 525 
weka. core package (weka. core £2) , 520-523 
classes (25$), 523 
Web page illustration (Web 页 面 示例 ) 521f- 
522f 
weka. datagenerators package ( weka. datagenerators 
包 ) 525 
weka. estimators package (weka. estimators 包 ) ，525 
weka. filters package (weka. filters 包 ) ，525 
weka. log, 415-416 
weka package (weka 包 ) 520 
Weka workbench (Weka 工作 平台 ) 376, 403 
filler (过 滤器 ) 404 
J4. 8 algorithm (J4.8 算法 ) 410-414 
Winnow, 129-130 
Balanced (平衡 的 ) 131 
linear classification with (线性 分 类 器 使 
FA), 88 
updating of weight (更 新 权 值 ) 130 
version illustration (版 本 示例 ) 130f 
Winnow algorithm (Winnow 算法 ) , 4461-450t 
wisdom (智慧 ) 35 
wrapper induction (包装 器 归纳 ) 390 
wrapper method (包装 方法 ) 308-309 
wrapper (包装 器 ) ，389-390 
WrapperSubsetEval method ( WrapperSubsetEval Jy 
法 ) 488, 489t 


X 


XMeans algorithm ( XMeans 算法 ) , 480t, 483 

XML (eXtensible Markup Language， 可 扩展 标记 语 
言 ) 52-56 

XOR (exclusive- OR, Fak), 233 

XRFF format (XRFF 格式 ) 419 


Z 


zero-frequency problem (和 零 频 率 问 题 ) 162 
ZeroR algorithm (ZeroR 算法 ) 413, 446t- 450t, 
459, 505 
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